


eye 



j AusJirJ 


Organizagao estruturada 
de computadores 



Voce nioV_._ 

cjuerdizer j Linguagem dt 
E=mc 2 ? y baixo mVel- 


Montador 


Linguagem de 
alt o mVel 


-S 1STEMA OPERAnr>MA| 


Virtualizagao 


Reiniciar. 


Reiniciar. 


Reiniciar. 


Entrada 


Manipulador 
de exce^oes 


[Microcontrolador 


frendido! 


Desculpe-N 
me... o 
predio esta 
em chamas y 


mtrole 


MICROAR j 


Fluxo del 


fora de 
ordem 


L Somadbr 


Execu^desJH 

especulativas. 


rup?3° 


11001010101 ' 


CatnijlhZJ^- 


Interpre- 


dinamlca 


Flash 


Nucleo? 


\ Computagao de 
baixo.consumo J 


Froceeeador 
de midia 


Sluegene 


6- EDICAO 


Tela sensiVel 
ao toque 


5 a corrida 
anual ao topo 
W da A.C.SA. 


Tela 


ao 


Predi^ao 
de desvio 


Sensor 


ALWAYS LEARNING 


PEARSON 




































































































Organizagao estruturada 
de computadores 


Pearson Education 



EMPRESA CIDADA 









Tanenbaum • Austin 

Organizagao estruturada 
de computadores 

6 a EDICAO 


Tradugao 

Daniel Vieira 

Revisao tecnica 

Prof. Dr. Wagner Luiz Zucchi 

Professor do Departamento de Sistemas Eletronicos da Escola Politecnica 
da Universidade de Sao Paulo, do programa de Pos-Graduagao do Instituto de 
Pesquisas Tecnologicas (IPT) e da Universidade Nove de Julho. Colaborador 
da revista RTI - Redes, Telecomunicagdes e Infraestrutura - e consultor de 
diversas empresas na area de redes e telecomunicagao digital 


PEARSON 



Respeite t> cfireipc autorat 




©2013 by Andrew S. Tanenbaum e Todd Austin 

Todos os direitos reservados. Nenhuma parte desta publicagao podera ser reproduzida ou 
transmitida de qualquer modo ou por qualquer outro meio, eletronico ou mecanico, incluindo 
fotocopia, gravagao ou qualquer outro tipo de sistema de armazenamento e transmissao de 
informagao, sem previa autorizagao, por escrito, da Pearson Education do Brasil. 


Diretor editorial e de conteudo 

Roger Trimer 

Gerente editorial 

Kelly Tavares 

SuPERVISORA DE PRODUgAO EDITORIAL 

Silvana Afonso 

COORDENADORA DE DESENVOLVIMENTO 

Danielle Sales 

COORDENADOR DE PRODUgAO EDITORIAL 

Sergio Nascimento 

COORDENADORA DE PRODUgAO GRAFICA 

Tatiane Romano 

Editor de AQuisigoEs 

Vimcius Souza 

Editora de texto 

Daniela Braz 

Editor assistente 

Luiz Salla 

PREPARAgAO 

Christiane Colas 

TRADUgAO 

Daniel Vieira 

Revisao tecnica 

Wagner Luiz Zucchi 

Revisao 

Guilherme Summa 

Capa 

Solange Renno 
(adaptagao do projeto original) 

PrOJETO GRAFICO E DIAGRAMAgAO 

Casa de Ideias 


Dados Internacionais de Catalogagao na Publicagao (CIP) 
(Camara Brasileira do Livro, SP, Brasil) 


Tanenbaum, Andrew S. 

Organizagao estruturada de computadores / Andrew S. Tanenbaum, 
Todd Austin; tradugao Daniel Vieira; revisao tecnica Wagner Luiz 
Zucchi. ~ Sao Paulo : Pearson Prentice Hall, 2013. 

Titulo original: Structured computer organization. 

6 ed. norte-americana. 

Bibliografia. 

ISBN 978-85-4301-379-4 

1. Organizagao de computador 2. Programagao (Computadores) 

I. Austin, Todd. II. Titulo. 

13-04217 CDD-005.1 


fndice para catalogo sistematico: 

1. Organizagao estruturada de computadores: 
Ciencias da computagao 005.1 


2013 

Direitos exclusivos para a lingua portuguesa cedidos a 
Pearson Education do Brasil Ltda., 
uma empresa do grupo Pearson Education 
Rua Nelson Francisco, 26 
CEP 02712-100 - Sao Paulo - SP - Brasil 
Fone: 11 2178-8686 - Fax: 11 2178-8688 
vendas@pearson.com 



Sumario 


PREFACIO XV 
DEDICATORIA XVIII 

1 introducAo 1 

1.1 ORGANIZACAO ESTRUTURADA DE COMPUTADOR 2 

1.1.1 Linguagens, nlveis e maquinas virtuais 2 

1.1.2 Maquinas multiniveis contemporaneas 4 

1.1.3 Evolugao de maquinas multiniveis 6 

1.2 MARCOS DA ARQUITETURA DE COMPUTADORES 10 

1.2.1 A geragao zero — computadores mecanicos (1642-1945) 10 

1.2.2 A primeira geragao — valvulas (1945-1955) 13 

1.2.3 A segunda geragao — transistores (1955-1965) 15 

1.2.4 A terceira geragao — circuitos integrados (1965-1980) 17 

1.2.5 A quarta geragao — integragao em escala muito grande (1980-?) 18 

1.2.6 A quinta geragao — computadores de baixa potencia e invislveis 20 

1.3 O ZOOLOGICO DOS COMPUTADORES 22 

1.3.1 Forgas tecnologicas e economicas 22 

1.3.2 Tipos de computadores 23 

1.3.3 Computadores descartaveis 24 

1.3.4 Microcontroladores 26 

1.3.5 Computadores moveis e de jogos 27 

1.3.6 Computadores pessoais 28 

1.3.7 Servidores 29 

1.3.8 Mainframes 30 

1.4 EXEMPLOS DE FAMILIAS DE COMPUTADORES 30 

1.4.1 Introdugao a arquitetura x86 31 

1.4.2 Introdugao a arquitetura ARM 35 

1.4.3 Introdugao a arquitetura AVR 37 

1.5 UNIDADES METRICAS 38 

1.6 ESQUEMA DESTE LIVRO 39 

2 ORGANIZACAO DE SISTEMAS DE COMPUTADORES 42 

2.1 PROCESSADORES 42 

2.1.1 Organizagao da CPU 43 

2.1.2 Execugao de instrugao 44 



VI 


Organizacao estruturada de computadores 


2.1.3 RISC versus CISC 47 

2.1.4 Princlpios de projeto para computadores modernos 49 

2.1.5 Paralelismo no nlvel de instrugao 50 

2.1.6 Paralelismo no nivel do processador 53 

2.2 MEMORIA PRIMARIA 5 7 

2.2.1 Bits 57 

2.2.2 Enderegos de memoria 58 

2.2.3 Ordenagao de bytes 59 

2.2.4 Codigos de corregao de erro 60 

2.2.5 Memoria cache 64 

2.2.6 Empacotamento e tipos de memoria 66 

2.3 MEMORIA SECUNDARIA 67 

2.3.1 Hierarquias de memoria 67 

2.3.2 Discos magneticos 68 

2.3.3 Discos IDE 71 

2.3.4 Discos SCSI 72 

2.3.5 RAID 73 

2.3.6 Discos em estado solido 76 

2.3.7 CD-ROMs 78 

2.3.8 CDs gravaveis 81 

2.3.9 CDs regravaveis 83 

2.3.10 DVD 83 

2.3.11 Blu-ray 85 

2.4 ENTRADA/SAIDA 85 

2.4.1 Barramentos 85 

2.4.2 Terminais 88 

2.4.3 Mouses 93 

2.4.4 Controladores de jogos 94 

2.4.5 Impressoras 96 

2.4.6 Equipamento de telecomunicagoes 100 

2.4.7 Cameras digitais 106 

2.4.8 Codigos de caracteres 108 

2.5 RESUMO 111 

3 O NIVEL LOGICO DIGITAL 115 

3.1 portas e Algebra booleana i 15 

3.1.1 Portas 116 

3.1.2 Algebra booleana 117 

3.1.3 Execugao de fungoes booleanas 119 

3.1.4 Equivalence de circuito 120 

3.2 CIRCUITOS LOGICOS DIGITAIS BASICOS 123 

3.2.1 Circuitos integrados 124 



Sumario 


3.2.2 Circuitos combinatorios 125 

3.2.3 Circuitos aritmeticos 127 

3.2.4 Clocks 132 

3.3 MEMORIA 133 

3.3.1 Memorias de 1 bit 133 

3.3.2 Flip-Flops 135 

3.3.3 Registradores 137 

3.3.4 Organizagao da memoria 138 

3.3.5 Chips de memoria 140 

3.3.6 RAMs e ROMs 142 

3.4 CHIPS DE CPU E BARRAMENTOS 146 

3.4.1 Chips de CPU 146 

3.4.2 Barramentos de computador 147 

3.4.3 Largura do barramento 149 

3.4.4 Clock do barramento 151 

3.4.5 Arbitragem de barramento 154 

3.4.6 Operagoes de barramento 156 

3.5 EXEMPLO DE CHIPS DE CPUs 158 

3.5.1 O Intel Core i7 158 

3.5.2 O sistema-em-um-chip Texas Instruments OMAP4430 164 

3.5.3 O microcontrolador Atmel ATmegal68 167 

3.6 EXEMPLOS DE BARRAMENTOS 169 

3.6.1 O barramento PCI 169 

3.6.2 PCI Express 176 

3.6.3 Barramento serial universal (USB) 180 

3.7 INTERFACE 183 

3.7.1 Interfaces de E/S 183 

3.7.2 Decodificagao de enderego 184 

3.8 RESUMO 186 

4 O NIVEL DE MICROARQUITETURA 190 

4.1 UM EXEMPLO DE MICROARQUITETURA 190 

4.1.1 O caminho de dados 191 

4.1.2 Microinstrugoes 196 

4.1.3 Controle de microinstrugao: a Mic-1 198 

4.2 EXEMPLO DE ISA: IJVM 201 

4.2.1 Pilhas 201 

4.2.2 O modelo de memoria IJVM 203 

4.2.3 Conjunto de instrugoes da IJVM 204 

4.2.4 Compilando Java para a IJVM 208 

4.3 EXEMPLO DE IMPLEMENTACAO 209 


VII 



VIII 


Organizacao estruturada de computadores 


4.3.1 Microinstrugoes e notagao 209 

4.3.2 Implementagao de IJVM que usa a Mic-1 212 

4.4 PROJETO DO NIVEL DE MICROARQUITETURA 222 

4.4.1 Velocidade versus custo 223 

4.4.2 Redugao do comprimento do caminho de execugao 224 

4.4.3 Projeto com busca antecipada: a Mic-2 229 

4.4.4 Projeto com pipeline: a Mic-3 233 

4.4.5 Pipeline de sete estagios: a Mic-4 238 

4.5 MELHORIA DE DESEMPENHO 241 

4.5.1 Memoria cache 241 

4.5.2 Previsao de desvio 246 

4.5.3 Execugao fora de ordem e renomeagao de registrador 250 

4.5.4 Execugao especulativa 254 

4.6 EXEMPLOS DO NIVEL DE MICROARQUITETURA 256 

4.6.1 A microarquitetura da CPU Core i7 256 

4.6.2 A microarquitetura da CPU OMAP4430 260 

4.6.3 A microarquitetura do microcontrolador ATmegal68 264 

4.7 COMPARACAO ENTRE i7, OMAP4430 E ATmegal68 266 

4.8 RESUMO 266 

5 O NIVEL DE ARQUITETURA DO CONJUNTO DE INSTRUQAO 270 

5.1 VISAO GERAL DO NIVEL ISA 272 

5.1.1 Propriedades do nivel ISA 272 

5.1.2 Modelos de memoria 273 

5.1.3 Registradores 275 

5.1.4 Instrugoes 276 

5.1.5 Visao geral do nivel ISA do Core i7 276 

5.1.6 Visao geral do nivel ISA ARM do OMAP4430 278 

5.1.7 Visao geral do nivel ISA AVR do ATmegal68 280 

5.2 TIPOS DE DADOS 281 

5.2.1 Tipos de dados numericos 282 

5.2.2 Tipos de dados nao numericos 282 

5.2.3 Tipos de dados no Core i7 283 

5.2.4 Tipos de dados na CPU ARM do OMAP4430 283 

5.2.5 Tipos de dados na CPU AVR do ATmegal68 284 

5.3 FORMATOS DE INSTRUCAO 284 

5.3.1 Criterios de projeto para formatos de instrugao 285 

5.3.2 Expansao de opcodes 287 

5.3.3 Formatos de instrugoes do Core i7 289 

5.3.4 Formatos de instrugoes da CPU ARM do OMAP4430 290 

5.3.5 Formatos de instrugoes da CPU AVR do ATmegal68 291 



Sumario 


IX 


5.4 ENDERECAMENTO 292 

5.4.1 Modos de enderegamento 292 

5.4.2 Enderegamento imediato 292 

5.4.3 Enderegamento direto 293 

5.4.4 Enderegamento de registrador 293 

5.4.5 Enderegamento indireto de registrador 293 

5.4.6 Enderegamento indexado 294 

5.4.7 Enderegamento de base indexado 296 

5.4.8 Enderegamento de pilha 296 

5.4.9 Modos de enderegamento para instrugoes de desvio 299 

5.4.10 Ortogonalidade de opcodes e modos de enderegamento 300 

5.4.11 Modos de enderegamento do Core i7 301 

5.4.12 Modos de enderegamento da CPU ARM do OMAP4430 303 

5.4.13 Modos de enderegamento da AVR do ATmegal68 303 

5.4.14 Discussao de modos de enderegamento 303 

5.5 TIPOS DE INSTRUCAO 304 

5.5.1 Instrugoes para movimento de dados 304 

5.5.2 Operagoes diadicas 305 

5.5.3 Operagoes monadicas 306 

5.5.4 Comparagoes e desvios condicionais 307 

5.5.5 Instrugoes de chamada de procedimento 309 

5.5.6 Controle de lago 309 

5.5.7 Entrada/Saida 310 

5.5.8 Instrugoes do Core i7 313 

5.5.9 Instrugoes da CPU ARM do OMAP4430 315 

5.5.10 Instrugoes da CPU AVR do ATmegal68 317 

5.5.11 Comparagao de conjuntos de instrugoes 319 

5.6 FLUXO DE CONTROLE 319 

5.6.1 Fluxo de controle sequencial e desvios 320 

5.6.2 Procedimentos 320 

5.6.3 Corrotinas 324 

5.6.4 Excegoes 326 

5.6.5 Interrupgoes 327 

5.7 UM EXEMPLO DETALHADO: AS TORRES DE HANOI 330 

5.7.1 As Torres de Hanoi em linguagem de montagem do Core i7 330 

5.7.2 As Torres de Hanoi em linguagem de montagem da CPU ARM do OMAP4430 332 

5.8 A ARQUITETURA IA-64 E O ITANIUM 2 333 

5.8.1 O problema da ISA LA-32 333 

5.8.2 O modelo IA-64: computagao por instrugao explicitamente paralela 334 

5.8.3 Redugao de references a memoria 335 

5.8.4 Escalonamento de instrugoes 336 



X 


Organizacao estruturada de computadores 


5.8.5 Redugao de desvios condicionais: predicagao 337 

5.8.6 Cargas especulativas 339 
5.9 RESUMO 340 

6 O SISTEMA OPERACIONAL 344 

6.1 MEMORIA VIRTUAL 345 

6.1.1 Paginagao 346 

6.1.2 Implementagao de paginagao 347 

6.1.3 Paginagao por demanda e o modelo de conjunto de trabalho 351 

6.1.4 Politica de substituigao de pagina 351 

6.1.5 Tamanho de pagina e fragmentagao 353 

6.1.6 Segmentagao 354 

6.1.7 Implementagao de segmentagao 357 

6.1.8 Memoria virtual no Core i7 359 

6.1.9 Memoria virtual na CPU ARM do OMAP4430 363 

6.1.10 Memoria virtual e caching 365 

6.2 VIRTUALIZACAO DO HARDWARE 365 

6.2.1 Virtualizagao do hardware no Core i7 366 

6.3 INSTRUCOES DE E/S DE NIVEL OSM 367 

6.3.1 Arquivos 367 

6.3.2 Implementagao de instrugoes de E/S de nivel OSM 369 

6.3.3 Instrugoes de gerenciamento de diretorio 371 

6.4 INSTRUCOES DE NIVEL OSM PARA PROCESSAMENTO PARALELO 372 

6.4.1 Criagao de processo 373 

6.4.2 Condigoes de disputa 374 

6.4.3 Sincronizagao de processos usando semaforos 377 

6.5 EXEMPLOS DE SISTEMAS OPERACIONAIS 380 

6.5.1 Introdugao 380 

6.5.2 Exemplos de memoria virtual 385 

6.5.3 Exemplos de E/S virtual em nivel de sistema operacional 388 

6.5.4 Exemplos de gerenciamento de processos 397 

6.6 RESUMO 402 

7 O NIVEL DE LINGUAGEM DE MONTAGEM 407 

7.1 INTRODUCAO A LINGUAGEM DE MONTAGEM 408 

7.1.1 O que e uma linguagem de montagem? 408 

7.1.2 Por que usar linguagem de montagem? 409 

7.1.3 Formato de uma declaragao em linguagem de montagem 409 

7.1.4 Pseudoinstrugoes 411 

7.2 MACROS 413 

7.2.1 Definigao, chamada e expansao de macro 413 



Sumario 


XI 


7.2.2 Macros com parametros 415 

7.2.3 Caracterlsticas avangadas 415 

7.2.4 Implementagao de um processador de macros em um assembler 416 

7.3 O PROCESSO DE MONTAGEM 417 

7.3.1 Assemblers de duas etapas 417 

7.3.2 Passagem um 417 

7.3.3 Passagem dois 421 

7.3.4 Tabela de slmbolos 422 

7.4 LIGACAO E CARREGAMENTO 423 

7.4.1 Tarefas realizadas pelo ligador 424 

7.4.2 Estrutura de um modulo-objeto 427 

7.4.3 Tempo de vmculagao e relocagao dinamica 428 

7.4.4 Ligagao dinamica 430 

7.5 RESUMO 433 

8 ARQUITETURAS DE COMPUTADORES PARALELOS 436 

8.1 PARALELISMO NO CHIP 438 

8.1.1 Paralelismo no nivel da instrugao 438 

8.1.2 Multithreading no chip 443 

8.1.3 Multiprocessadores com um unico chip 448 

8.2 COPROCESSADORES 453 

8.2.1 Processadores de rede 453 

8.2.2 Processadores de graficos 459 

8.2.3 Criptoprocessadores 461 

8.3 MULTIPROCESSADORES DE MEMORIA COMPARTILHADA 462 

8.3.1 Multiprocessadores versus multicomputadores 462 

8.3.2 Semantica da memoria 468 

8.3.3 Arquiteturas de multiprocessadores simetricos UMA 471 

8.3.4 Multiprocessadores NUMA 478 

8.3.5 Multiprocessadores COMA 485 

8.4 MULTICOMPUTADORES DE TROCA DE MENSAGENS 486 

8.4.1 Redes de interconexao 487 

8.4.2 MPPs — processadores macigamente paralelos 490 

8.4.3 Computagao de cluster 497 

8.4.4 Software de comunicagao para multicomputadores 502 

8.4.5 Escalonamento 503 

8.4.6 Memoria compartilhada no nivel de aplicagao 504 

8.4.7 Desempenho 510 

8.5 COMPUTACAO EM GRADE 514 

8.6 RESUMO 516 



XII 


Organizacao estruturada de computadores 


9 BIBLIOGRAFIA 519 

A NUMEROS BINARIOS 525 

A. 1 NUMEROS DE PRECISAO FINITA 525 

A.2 SISTEMAS DE NUMEROS RAIZ, OU NUMEROS DE BASE 527 

A.3 CONVERSAO DE UMA BASE PARA OUTRA 529 

A.4 NUMEROS BINARIOS NEGATIVOS 531 

A. 5 ARITMETICA BINARIA 532 

B NUMEROS DE PONTO FLUTUANTE 534 

B. l PRINCIPIOS DE PONTO FLUTUANTE 534 

B. 2 PADRAO DE PONTO FLUTUANTE IEEE 754 537 

C PROGRAMACAO EM LINGUAGEM DE MONTAGEM 542 

C. l VISAO GERAL 543 

C. 1.1 Linguagem de montagem 543 

C.1.2 Um pequeno programa em linguagem de montagem 543 
C.2 O PROCESSADOR 8088 544 

C.2.1 O ciclo do processador 545 
C.2.2 Os registradores gerais 546 
C.2.3 Registradores de ponteiros 547 
C.3 MEMORIA E ENDERECAMENTO 548 

C.3.1 Organizagao da memoria e segmentos 548 
C.3.2 Enderegamento 549 
C.4 O CONJUNTO DE INSTRUCOES DO 8088 552 
C.4.1 Mover, copiar, efetuar aritmetica 552 
C.4.2 Operagoes logicas, de bit e de deslocamento 555 
C.4.3 Operagoes de lago e cadeias repetitivas 555 
C.4.4 Instrugoes Jump e Call 556 
C.4.5 Chamadas de sub-rotina 557 
C.4.6 Chamadas de sistema e sub-rotinas de sistema 558 
C.4.7 Observagoes finais sobre o conjunto de instrugoes 560 
C.5 O ASSEMBLER 561 

C.5.1 Introdugao 561 

C.5.2 O assembler as88, baseado em ACK 561 
C.5.3 Algumas diferengas com outros assemblers 8088 564 

C.6 O RASTREADOR 565 

C.6.1 Comandos do rastreador 566 
C.7 COMO ACESSAR 568 
C.8 EXEMPLOS 568 

C.8.1 Exemplo de Hello World 568 



Sumario 


XIII 


C.8.2 Exemplo de registradores gerais 570 

C.8.3 Comando de chamada e registradores de ponteiros 571 

C.8.4 Depuragao de um programa de impressao de vetores 574 

C.8.5 Manipulagao de cadeia e instrugoes de cadeia 576 

C.8.6 Tabelas de despacho 579 

C.8.7 Acesso a arquivo com buffer e aleatorio 580 

INDICE 584 





Prefacio 


A s cinco primeiras edigoes deste livro foram baseadas na ideia de que um computador pode ser considerado 
uma hierarquia de nlveis, cada um realizando alguma fungao bem definida. Esse conceito fundamental e 
valido tan to hoje quanto na epoca da primeira edigao, de modo que foi mantido como base para a sexta 
edigao. Assim como nas cinco primeiras edigoes, o nlvel logico digital, o nlvel de microarquitetura, o nlvel de arqui- 
tetura do conjunto de instrugoes, o nlvel de maquina do sistema operacional e o nlvel da linguagem de montagem 
sao todos discutidos com detalhes. 

Embora a estrutura basica tenha sido mantida, esta edigao contem muitas mudangas, pequenas e grandes, 
que a mantem atualizada na area da computagao, que muda tao rapidamente. Por exemplo, os modelos de 
maquinas usados foram atualizados. Os exemplos atuais sao Intel Core i7, Texas Instrument OMAP4430 e Atmel 
ATmegal68. O Core i7 e um exemplo de CPU popular usada em laptops, desktops e servidores. O OMAP4430 e 
um tipo de CPU popular baseada em ARM, muito usada em smartphones e tablets. 

Mesmo que voce talvez nunca tenha ouvido falar do microcontrolador ATmegal68, provavelmente ja tera 
interagido muitas vezes com um deles. O microcontrolador ATmegal68 baseado no AVR e encontrado em diversos 
sistemas embutidos, variando desde radios-relogios ate fornos de micro-ondas. O interesse em sistemas embutidos 
e cada vez maior, e o ATmegal68 e muito usado poo seu custo baixlssimo (centavos), sua grande quantidade de 
software e perifericos para ele e o grande numero de programadores disponlveis. A quantidade de ATmegal68s no 
mundo decerto e maior que a de CPUs Pentium e Core i3, i5 e i7 por algumas ordens de grandeza. O ATmegal68s 
tambem e o processador encontrado no computador embutido Arduino de placa unica, um sistema popular pro- 
jetado em uma universidade italiana para custar menos que um jantar em uma pizzaria. 

Ao longo dos anos, muitos professores que adotaram este livro solicitaram repetidas vezes material sobre 
programagao em linguagem de montagem (assembly). Com a sexta edigao, esse material agora esta disponlvel 
na Sala Virtual (veja adiante), onde pode ser expandido com facilidade e mantido de modo perene. A linguagem 
de montagem escolhida e a do 8088, pois e uma versao reduzida do conjunto de instrugoes iA32 extremamente 
popular, usado no processador Core i7. Poderlamos ter usado os conjuntos de instrugoes ARM ou AVR, ou alguma 
outra ISA da qual quase ninguem ouviu falar, mas, como uma ferramenta de motivagao, o 8088 e uma escolha 
melhor, pois muitos alunos possuem uma CPU compatlvel com o 8088 em casa. O Core i7 completo e muito 
complexo para os alunos entenderem com detalhes. O 8088 e semelhante, porem muito mais simples. 

Alem disso, o Core i7, que e abordado com detalhes nesta edigao do livro, e capaz de executar programas 8088. 
Porem, como a depuragao do codigo de montagem e muito diflcil, oferecemos um conjunto de ferramentas para 
aprendizado da programagao em linguagem de montagem, incluindo um assembler 8088 , um simulador e um 
rastreador. Essas ferramentas estao disponlveis para Windows, Solaris UNIX, e Linux, na Sala Virtual. 

O livro tornou-se mais extenso com o passar dos anos (a primeira edigao tinha 443 paginas; esta tern 624 
paginas). Essa expansao foi inevitavel, tendo em vista que um assunto se desenvolve e ha mais a saber sobre ele. 
Como resultado, quando se resolve adota-lo em um curso, nem sempre e posslvel termina-lo em um unico curso 
(por exemplo, quando o curso e trimestral). Uma alternativa posslvel seria estudar, como um mlnimo essencial, 
os Capltulos 1, 2 e 3, a primeira parte do Capltulo 4 (ate, e inclusive, a Segao 4.4) e o Capltulo 5. O tempo que 
sobrar poderia ser utilizado com o restante do Capltulo 4 e partes dos Capltulos 6, 7 e 8, dependendo do interesse 
do professor e dos alunos. 

Em seguida apresentamos, capltulo por capltulo, uma resenha das principais mudangas desde a quinta edi¬ 
gao. O Capltulo 1 ainda contem uma revisao historica da arquitetura de computador, que mostra como chegamos 
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onde estamos hoje e quais foram os marcos ao longo do percurso. Muitos alunos ficarao surpresos ao descobrir 
que os computadores mais poderosos do mundo na decada de 1960, que custavam milhoes de dolares america- 
nos, tinham muito menos de 1% do poder de computagao de seus smartphones. Discutimos tambem o espectro 
ampliado dos computadores atuais, incluindo FGPAs, smartphones, tablets e consoles de jogos. Discutimos tam¬ 
bem nossas tres novas arquiteturas de exemplo (Core i7, OMAP4430 e ATmegal68). 

No Capltulo 2, o material sobre estilos de processamento foi expandido para incluir processadores paralelos 
de dados, incluindo unidades de processamento grafico (GPUs). O panorama do armazenamento foi expandido 
para incluir os dispositivos de armazenamento baseados em memoria flash, cada vez mais populares. Um material 
novo foi acrescentado a segao de entrada/saida, que detalha os controladores de jogos modernos, incluindo o Wiimote 
e o Kinect, alem de telas senslveis ao toque, usadas em smartphones e tablets. 

O Capltulo 3 passou por uma revisao em diversas partes. Ele ainda comega no basico, explicando como 
funcionam os transistores, e parte disso para que ate mesmo os alunos sem qualquer base em hardware possam 
entender, em princlpio, como funciona um computador moderno. Oferecemos material novo sobre FPGAs (Field- 
-Programmable Gate Arrays), fabricas de hardware programaveis, que levam os verdadeiros custos do projeto no 
nivel de porta em grande escala para onde eles sao muito usados hoje, a sala de aula. Os tres novos exemplos de 
arquiteturas sao descritos aqui em um nivel mais alto. 

O Capltulo 4 sempre foi benquisto por explicar como um computador realmente funciona, portanto a maior 
parte dele nao sofreu alteragoes desde a quinta edigao. Contudo, ha novas segoes que discutem o nivel de micro- 
arquitetura do Core i7, do OMAP4430 e do ATmegal68. 

Os Capltulos 5 e 6 foram atualizados com base nos novos exemplos de arquitetura, particularmente com 
novas segoes descrevendo os conjuntos de instrugoes ARM e AVR. O Capltulo 6 utiliza Windows 7 em vez do 
Windows XP como exemplo. 

O Capltulo 7, sobre programagao em linguagem de montagem, nao teve muita alteragao desde a quinta edigao. 

O Capltulo 8 sofreu muitas revisoes, para refletir novos desenvolvimentos na area de computagao paralela. 
Foram incluldos mais detalhes sobre a arquitetura do multiprocessador Core i7, e a arquitetura GPU de uso geral 
NVIDIA Fermi e descrita com detalhes. Por fim, as segoes sobre os supercomputadores BlueGene e Red Storm 
foram atualizadas para refletir as atualizagoes recentes nessas enormes maquinas. 

O Capltulo 9 mudou. As leituras sugeridas passaram para a Sala Virtual, de modo que o novo texto contem 
apenas as references citadas no livro, muitas delas novas. A organizagao do computador e um campo dinamico. 

Os Apendices A e B nao foram atualizados desde a ultima vez. Numeros binarios e numeros de ponto 
flutuante nao mudaram muito nos ultimos anos. O Apendice C, sobre programagao em linguagem de montagem, 
foi escrito pelo dr. Evert Wattel da Vrije Universiteit, Amsterda. O dr. Wattel leciona ha muitos anos e tern 
ensinado seus alunos a usar essas ferramentas. Agradecemos a ele por ter escrito esse apendice. Ele nao mudou 
muito desde a quinta edigao, mas as ferramentas agora estao na Sala Virtual. 

Alem das ferramentas para linguagem de montagem, a Sala Virtual tambem contem um simulador gra¬ 
fico a ser usado junto com o Capltulo 4. Esse simulador foi escrito pelo professor Richard Salter, do Oberlin 
College, e pode ser usado pelos estudantes para ajuda-los a compreender os princlpios discutidos nesse capltulo. 
Agradecemos muito a ele por ter fornecido esse software. 

Muitas pessoas leram partes do original e contribulram com sugestoes uteis ou ajudaram de diversas manei- 
ras. Gostarlamos de agradecer, em particular, a ajuda prestada por Anna Austin, Mark Austin, Livio Bertacco, 
Valeria Bertacco, Debapriya Chatterjee, Jason Clemons, Andrew DeOrio, Joseph Greathouse e Andrea Pellegrini. 

As pessoas citadas a seguir revisaram o original e sugeriram mudangas: Jason D. Bakos (University of South 
Carolina), Bob Brown (Southern Polytechnic State University), Andrew Chen (Minnesota State University, 
Moorhead), J. Archer Harris (James Madison University), Susan Krucke (James Madison University), A. Yavuz 
Oruc (University of Maryland), Frances Marsh (Jamestown Community College) e Kris Schindler (University at 
Buffalo). Somos muito gratos a eles. 
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Varias pessoas ajudaram a criar novos exerclcios. Sao elas: Byron A. Jeff (Clayton University), Laura W. 
McFall (DePaul University), Taghi M. Mostafavi (University of North Carolina at Charlotte) e James Nystrom 
(Ferris State University). Novamente, somos muito gratos por sua ajuda. 

Nossa editora, Tracy Johnson, foi muito util de diversas maneiras, grandes e pequenas, alem de ser muito 
paciente conosco. Somos muito gratos pelo auxllio de Carole Snyder na coordenagao de varias pessoas envolvidas 
no projeto. Bob Englehardt realizou um otimo trabalho de produgao. 

Eu (AST) gostaria de agradecer mais uma vez a Suzanne por seu amor e paciencia, que nunca se esgotaram, 
nem mesmo apos 21 livros. Barbara e Marvin sao sempre uma alegria e agora sabem o que os professores fazem 
para ganhar a vida. Aron pertence a proxima geragao: criangas que sao usuarios intensos do computador, antes 
mesmo de entrarem no jardim de infancia. Nathan ainda nao chegou a esse ponto, mas, depois que descobrir 
como andar, o iPad sera o proximo. 

Por fim, eu (TA) gostaria de usar esta oportunidade para agradecer a minha sogra Roberta, que me ajudou a 
reservar algum tempo para trabalhar neste livro. Sua mesa da sala de jantar em Bassano Del Grappa, Italia, provi- 
denciou a dose certa de isolamento, abrigo e vinho para realizar essa importante tarefa. 


ANDREW S. TANENBAUM 
TODD AUSTIN 


Agradecimentos - Edicao brasileira 

Agradecemos a todos os profissionais envolvidos na produgao deste livro, em especial ao Prof. Dr. Wagner 
Luiz Zucchi (Escola Pobtecnica da USP, Instituto de Pesquisas Tecnologicas - IPT - e Universidade Nove de 
Julho), pela dedicagao e empenho na revisao tecnica do conteudo. 


e aiunos na exposigao aas auias e no processo ae aprenaizagem. 

Para o professor: 

• Manual de solugoes (em ingles) 

• Apresentagoes em Power Point 

Para o aluno: 

• Download de aplicativos (assembler e tracer ) 

• Simulador grafico para aplicagoes do Capltulo 4 

• Sugestoes de leitura para aprofundamento 

O material dos professores e protegido por senha. Para ter acesso a eles, os professores que adotam o livro 
devem entrar em contato com o seu representante Pearson ou enviar e-mail para universitarios@pearson.com. 



Material adicional 

A Sala Virtual do livro (<sv.pearson.com.br>) oferece recursos adicionais que auxiliarao professores 











AST: Para Suzanne, Barbara, Marvin, Aron e Nathan. 

TA: Para Roberta, que criou espaQO (e tempo) para eu terminar este projeto. 
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U m computador digital e uma maquina que pode resolver problemas para as pessoas, executando ins¬ 
trugoes que lhe sao dadas. Uma sequencia de instrugoes descrevendo como realizar determinada tarefa 
e chamada de programa. Os circuitos eletronicos de cada computador podem reconhecer e executar 
diretamente um conjunto limitado de instrugoes simples, para o qual todos os programas devem ser converti- 
dos antes que possam ser executados. Essas instrugoes basicas raramente sao muito mais complicadas do que 

• Some dois numeros. 

• Verifique se um numero e zero. 

• Copie dados de uma parte da memoria do computador para outra. 

Juntas, as instrugoes primitivas de um computador formam uma linguagem com a qual as pessoas podem se 
comunicar com ele. Essa linguagem e denominada linguagem de maquina. Quern projeta um novo computador 
deve decidir quais instrugoes incluir em sua linguagem de maquina. De modo geral, os projetistas tentam tor- 
nar as instrugoes primitivas as mais simples posslveis, coerentes com os requisitos de utilizagao e desempenho 
idealizados para o computador e seus requisitos de desempenho, a fim de reduzir a complexidade e o custo dos 
circuitos eletronicos necessarios. Como a maioria das linguagens de maquina e muito simples, sua utilizagao 
direta pelas pessoas e diflcil e tediosa. 

Com o passar do tempo, essa observagao simples tern levado a uma forma de estruturar os computadores 
como uma sequencia de abstragoes, cada uma baseada naquela abaixo dela. Desse modo, a complexidade pode ser 
dominada e os sistemas de computagao podem ser projetados de forma sistematica e organizada. Denominamos 
essa abordagem organizagao estruturada de computadores - foi esse o nome dado a este livro. Na segao seguin- 
te, descreveremos o que significa esse termo. Logo apos, comen tar emos alguns desenvolvimentos historicos, o 
estado atual da tecnologia e exemplos importantes. 
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1.1 Organizacao estruturada de computadores 

Como ja mencionamos, existe uma grande lacuna entre o que e conveniente para as pessoas e o que e conve- 
niente para computadores. As pessoas querem fazer X, mas os computadores so podem fazer Y, o que da origem 
a um problema. O objetivo deste livro e explicar como esse problema pode ser resolvido. 

1.1.1 Linguagens, niveis e maquinas virtuais 

O problema pode ser abordado de duas maneiras, e ambas envolvem projetar um novo conjunto de ins¬ 
trugoes que e mais conveniente para as pessoas usarem do que o conjunto embutido de instrugoes de maquina. 
Juntas, essas novas instrugoes tambem formam uma linguagem, que chamaremos de LI, assim como as instru¬ 
goes de maquina embutidas formam uma linguagem, que chamaremos de LO. As duas tecnicas diferem no modo 
como os programas escritos em LI sao executados pelo computador que, afinal, so pode executar programas 
escritos em sua linguagem de maquina, LO. 

Um metodo de execugao de um programa escrito em LI e primeiro substituir cada instrugao nele por uma 
sequencia equivalente de instrugoes em LO. O programa resultante consiste totalmente em instrugoes LO. O com¬ 
putador, entao, executa o novo programa LO em vez do antigo programa LI. Essa tecnica e chamada de tradugao. 

A outra tecnica e escrever um programa em LO que considere os programas em LI como dados de entrada 
e os execute, examinando cada instrugao por sua vez, executando diretamente a sequencia equivalente de ins¬ 
trugoes LO. Essa tecnica nao requer que se gere um novo programa em LO. Ela e chamada de interpretagao, e o 
programa que a executa e chamado de interpretador. 

Tradugao e interpretagao sao semelhantes. Nos dois metodos, o computador executa instrugoes em LI 
executando sequencias de instrugoes equivalentes em LO. A diferenga e que, na tradugao, o programa LI inteiro 
primeiro e convertido para um LO, o programa LI e desconsiderado e depois o novo LO e carregado na memoria 
do computador e executado. Durante a execugao, o programa LO recem-gerado esta sendo executado e esta no 
controle do computador. 

Na interpretagao, depois que cada instrugao LI e examinada e decodificada, ela e executada de imediato. 
Nenhum programa traduzido e gerado. Aqui, o interpretador esta no controle do computador. Para ele, o progra¬ 
ma LI e apenas dados. Ambos os metodos e, cada vez mais, uma combinagao dos dois, sao bastante utilizados. 

Em vez de pensar em termos de tradugao ou interpretagao, muitas vezes e mais simples imaginar a existencia 
de um computador hipotetico ou maquina virtual cuja linguagem seja LI. Vamos chamar essa maquina virtual de 
Ml (e de MO aquela correspondente a LO). Se essa maquina pudesse ser construlda de forma barata o suficiente, nao 
seria preciso de forma alguma ter a linguagem LO ou uma maquina que executou os programas em LO. As pessoas 
poderiam simplesmente escrever seus programas em LI e fazer com que o computador os executasse diretamente. 
Mesmo que a maquina virtual cuja linguagem e LI seja muito cara ou complicada de construir com circuitos ele- 
tronicos, as pessoas ainda podem escrever programas para ela. Esses programas podem ser ou interpretados ou tra- 
duzidos por um programa escrito em LO que, por si so, consegue ser executado diretamente pelo computador real. 
Em outras palavras, as pessoas podem escrever programas para maquinas virtuais, como se realmente existissem. 

Para tornar pratica a tradugao ou a interpretagao, as linguagens LO e LI nao deverao ser “muito” diferentes. 
Tal restrigao significa quase sempre que LI, embora melhor que LO, ainda estara longe do ideal para a maioria 
das aplicagoes. Esse resultado talvez seja desanimador a luz do proposito original da criagao de LI - aliviar o 
trabalho do programador de ter que expressar algoritmos em uma linguagem mais adequada a maquinas do que 
a pessoas. Porem, a situagao nao e desesperadora. 

A abordagem obvia e inventar outro conjunto de instrugoes que seja mais orientado a pessoas e menos 
orientado a maquinas que a LI. Esse terceiro conjunto tambem forma uma linguagem, que chamaremos de L2 (e 
com a maquina virtual M2). As pessoas podem escrever programas em L2 exatamente como se de fato existisse 
uma maquina real com linguagem de maquina L2. Esses programas podem ser traduzidos para LI ou executados 
por um interpretador escrito em LI. 
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A invengao de toda uma serie de linguagens, cada uma mais conveniente que suas antecessoras, pode pros- 
seguir indefinidamente, ate que, por fim, se chegue a uma adequada. Cada linguagem usa sua antecessora como 
base, portanto, podemos considerar um computador que use essa tecnica como uma serie de camadas ou niveis, 
um sobre o outro, conforme mostra a Figura 1.1. A linguagem ou nlvel mais embaixo e a mais simples, e a lin¬ 
guagem ou nlvel mais em cima e a mais sofisticada. 


Figura 1.1 


Maquina multinivel. 


Nivel n 


Nivel 3 


Nivel 2 


Nivel 1 


Nivel 0 



Programas em Ln sao interpretados 
por um interpretador rodando em 
uma maquina de nfvel inferior ou 
sao traduzidos para a linguagem de 
maquina de uma maquina de nfvel 
inferior 


Programas em L2 sao interpretados 
por interpretadores rodando em Ml ou 
MO, ou sao traduzidos para LI ou LO 


Programas em LI sao interpretados 
por um interpretador rodando em MO, 
ou sao traduzidos para LO 


Programas em LO podem ser 
executados diretamente pelos 
circuitos eletronicos 


Ha uma relagao importante entre uma linguagem e uma maquina virtual. Cada maquina tern uma linguagem 
de maquina, consistindo em todas as instrugoes que esta pode executar. Com efeito, uma maquina define uma 
linguagem. De modo semelhante, uma linguagem define uma maquina - a saber, aquela que pode executar todos 
os programas escritos na linguagem. Claro, pode ser muito complicado e caro construir a maquina definida por 
determinada linguagem diretamente pelos circuitos eletronicos, mas, apesar disso, podemos imagina-la. Uma 
maquina que tivesse C ou C++ ou Java como sua linguagem seria de fato complexa, mas poderia ser construlda 
usando a tecnologia de hoje. Porem, ha um bom motivo para nao construir tal computador: ele nao seria econo- 
mico em comparagao com outras tecnicas. O mero fato de ser factlvel nao e bom o suficiente: um projeto pratico 
tambem precisa ser economico. 

De certa forma, um computador com n niveis pode ser visto como n diferentes maquinas virtuais, cada uma 
com uma linguagem de maquina diferente. Usaremos os termos “nlvel” e “maquina virtual” para indicar a mesma 
coisa. Apenas programas escritos na linguagem LO podem ser executados diretamente pelos circuitos eletronicos, 
sem a necessidade de uma tradugao ou interpretagao intervenientes. Os programas escritos em LI, L2, ..., Ln 
devem ser interpretados por um interpretador rodando em um nlvel mais baixo ou traduzidos para outra lingua¬ 
gem correspondente a um nlvel mais baixo. 

Uma pessoa que escreve programas para a maquina virtual de nlvel n nao precisa conhecer os interpretadores 
e tradutores subjacentes. A estrutura de maquina garante que esses programas, de alguma forma, serao execu¬ 
tados. Nao ha interesse real em saber se eles sao executados passo a passo por um interpretador que, por sua 
vez, tambem e executado por outro interpretador, ou se o sao diretamente pelos circuitos eletronicos. O mesmo 
resultado aparece nos dois casos: os programas sao executados. 

Quase todos os programadores que usam uma maquina de nlvel n estao interessados apenas no nlvel 
superior, aquele que menos se parece com a linguagem de maquina do nlvel mais inferior. Porem, as pessoas 
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interessadas em entender como um computador realmente funciona deverao estudar todos os nlveis. Quem pro- 
jeta novos computadores ou novos nlveis tambem deve estar familiarizado com outros nlveis alem do mais alto. 
Os conceitos e tecnicas de construgao de maquinas como uma serie de nlveis e os detalhes dos proprios nlveis 
formam o assunto principal deste livro. 

1.1.2 Maquinas multiniveis contemporaneas 

A maioria dos computadores modernos consiste de dois ou mais nlveis. Existem maquinas com ate seis 
nlveis, conforme mostra a Figura 1.2. O nlvel 0, na parte inferior, e o hardware verdadeiro da maquina. Seus 
circuitos executam os programas em linguagem de maquina do nlvel 1. Por razoes de precisao, temos que men- 
cionar a existencia de outro nlvel abaixo do nosso nlvel 0. Esse nlvel, que nao aparece na Figura 1.2 por entrar 
no domlnio da engenharia eletrica (e, portanto, estar fora do escopo deste livro), e chamado de nlvel de dispo- 
sitivo. Nele, o projetista ve transistores individual, que sao os primitivos de mais baixo nlvel para projetistas de 
computador. Se alguem quiser saber como os transistores funcionam no interior, isso nos levara para o campo 
da flsica no estado solido. 


Figura 1.2 


Um computador com seis nfveis. 0 metodo de suporte para cada nfvel e indicado abaixo dele (junto com o nome do programa 
que o suporta). 


Nfvel 5 


Nfvel 4 


Nfvel 3 


Nfvel 2 


Nfvel 1 


Nfvel 0 



No nlvel mais baixo que estudaremos, o nlvel logico digital, os objetos interessantes sao chamados de por- 
tas (ou gates). Embora montadas a partir de componentes analogicos, como transistores, podem ser modeladas 
com precisao como dispositivos digitais. Cada porta tern uma ou mais entradas digitais (sinais representando 0 
ou 1) e calcula como salda alguma fungao simples dessas entradas, como AND (E) ou OR (OU). Cada porta e 
composta de no maximo alguns transistores. Um pequeno numero de portas podem ser combinadas para formar 
uma memoria de 1 bit, que consegue armazenar um 0 ou um 1. As memorias de 1 bit podem ser combinadas 
em grupos de (por exemplo) 16, 32 ou 64 para formar registradores. Cada registrador pode manter um unico 
numero binario ate algum maximo. As portas tambem podem ser combinadas para formar o proprio mecanismo 
de computagao principal. Examinaremos as portas e o nlvel logico digital com detalhes no Capltulo 3. 
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O proximo nlvel acima e o nlvel de microarquitetura. Aqui, vemos uma colegao de (em geral) 8 a 32 regis- 
tradores que formam uma memoria local e um circuito chamado ULA - Unidade Logica e Artitmetica (em ingles 
Arithmetic Logic Unit), que e capaz de realizar operagoes aritmeticas simples. Os registradores estao conectados 
a ULA para formar um caminho de dados, sobre o qual estes fluem. A operagao basica do caminho de dados con- 
siste em selecionar um ou dois registradores, fazendo com que a ULA opere sobre eles (por exemplo, somando- 
-os) e armazenando o resultado de volta para algum registrador. 

Em algumas maquinas, a operagao do caminho de dados e controlada por um programa chamado micro- 
programa. Em outras, o caminho de dados e controlado diretamente pelo hardware. Nas tres primeiras edigoes 
deste livro, chamamos esse nlvel de “nlvel de microprogramagao”, pois no passado ele quase sempre era um 
interpretador de software. Como o caminho de dados agora quase sempre e (em parte) controlado diretamente 
pelo hardware, mudamos o nome na quarta edigao. 

Em maquinas com controle do caminho de dados por software, o microprograma e um interpretador para 
as instrugoes no nlvel 2. Ele busca, examina e executa instrugoes uma por vez, usando o caminho de dados. Por 
exemplo, para uma instrugao ADD, a instrugao seria buscada, seus operandos localizados e trazidos para registra¬ 
dores, a soma calculada pela ULA e, por fim, o resultado retornado para o local a que pertence. Em uma maquina 
com controle do caminho de dados por hardware, haveria etapas semelhantes, mas sem um programa armazenado 
expllcito para controlar a interpretagao das instrugoes desse nlvel. 

Chamaremos o nlvel 2 de nlvel de arquitetura do conjunto de instrugao, ou nlvel ISA (Instruction Set 
Architecture). Os fabricantes publicam um manual para cada computador que vendem, intitulado “Manual 
de Referenda da Linguagem de Maquina”, ou “Princlpios de Operagao do Computador Western Wombat 
Modelo 100X”, ou algo semelhante. Esses manuais, na realidade, referem-se ao nlvel ISA, e nao aos subjacen- 
tes. Quando eles explicam o conjunto de instrugoes da maquina, na verdade estao descrevendo as instrugoes 
executadas de modo interpretativo pelo microprograma ou circuitos de execugao do hardware. Se um fabri¬ 
cate oferecer dois interpretadores para uma de suas maquinas, interpretando dois nlveis ISA diferentes, ele 
precisara oferecer dois manuais de referenda da “linguagem de maquina”, um para cada interpretador. 

O proximo nlvel costuma ser hlbrido. A maior parte das instrugoes em sua linguagem tambem esta no nlvel 
ISA. (Nao ha motivo pelo qual uma instrugao que aparece em um nlvel nao possa estar presente tambem em 
outros.) Alem disso, ha um conjunto de novas instrugoes, uma organizagao de memoria diferente, a capacidade 
de executar dois ou mais programas simultaneamente e diversos outros recursos. Existe mais variagao entre os 
projetos de nlvel 3 do que entre aqueles no nlvel 1 ou no nlvel 2. 

As novas facilidades acrescentadas no nlvel 3 sao executadas por um interpretador rodando no nlvel 2, o 
qual, historicamente, tern sido chamado de sistema operacional. Aquelas instrugoes de nlvel 3 que sao identicas as 
do nlvel 2 sao executadas direto pelo microprograma (ou controle do hardware), e nao pelo sistema operacional. 
Em outras palavras, algumas das instrugoes de nlvel 3 sao interpretadas pelo sistema operacional e algumas o sao 
diretamente pelo microprograma. E a isso que chamamos de nlvel “hlbrido”. No decorrer deste livro, nos o 
chamaremos de nlvel de maquina do sistema operacional. 

Ha uma quebra fundamental entre os nlveis 3 e 4. Os tres nlveis mais baixos nao servem para uso do progra- 
mador do tipo mais comum. Em vez disso, eles sao voltados principalmente para a execugao dos interpretadores e 
tradutores necessarios para dar suporte aos nlveis mais altos. Esses interpretadores e tradutores sao escritos pelos 
programadores de sistemas, profissionais que se especializam no projeto e execugao de novas maquinas virtuais. 
Os nlveis 4 e acima sao voltados para o programador de aplicagoes, que tern um problema para solucionar. 

Outra mudanga que ocorre no nlvel 4 e o metodo de suporte dos nlveis mais altos. Os nlveis 2 e 3 sao sempre 
interpretados. Em geral, mas nem sempre, os nlveis 4, 5 e acima sao apoiados por tradugao. 

Outra diferenga entre nlveis 1, 2 e 3, por um lado, e 4, 5 e acima, por outro, e a natureza da linguagem for- 
necida. As linguagens de maquina dos nlveis 1, 2 e 3 sao numericas. Os programas nessas linguagens consistem 
em uma longa serie de numeros, muito boa para maquinas, mas ruim para as pessoas. A partir do nlvel 4, as 
linguagens contem palavras e abreviagoes cujo significado as pessoas entendem. 
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O nlvel 4, o da linguagem de montagem (assembly), na realidade e uma forma simbolica para uma das lin- 
guagens subjacentes. Esse nlvel fornece um metodo para as pessoas escreverem programas para os nlveis 1, 2 e 
3 em uma forma que nao seja tao desagradavel quanto as linguagens de maquina virtual em si. Programas em 
linguagem de montagem sao primeiro traduzidos para linguagem de nlvel 1, 2 ou 3, e em seguida interpretados 
pela maquina virtual ou real adequada. O programa que realiza a tradugao e denominado assembler. 

O nlvel 5 normalmente consiste em linguagens projetadas para ser usadas por programadores de aplica- 
goes que tenham um problema a resolver. Essas linguagens costumam ser denominadas linguagens de alto 
nlvel. Existem literalmente centenas delas. Algumas das mais conhecidas sao C, C++, Java, Perl, Python e PHP. 
Programas escritos nessas linguagens em geral sao traduzidos para nlvel 3 ou nlvel 4 por tradutores conhecidos 
como compiladores, embora as vezes sejam interpretados, em vez de traduzidos. Programas em Java, por exem- 
plo, costumam ser primeiro traduzidos para uma linguagem semelhante a ISA denominada codigo de bytes Java, 
ou bytecode Java, que e entao interpretada. 

Em alguns casos, o nlvel 5 consiste em um interpretador para o domlnio de uma aplicagao especlfica, como 
matematica simbolica. Ele fornece dados e operagoes para resolver problemas nesse domlnio em termos que pes¬ 
soas versadas nele possam entende-lo com facilidade. 

Resumindo, o aspecto fundamental a lembrar e que computadores sao projetados como uma serie de nlveis, 
cada um construldo sobre seus antecessores. Cada nlvel representa uma abstragao distinta na qual estao presen- 
tes diferentes objetos e operagoes. Projetando e analisando computadores desse modo, por enquanto podemos 
dispensar detalhes irrelevantes e assim reduzir um assunto complexo a algo mais facil de entender. 

O conjunto de tipos de dados, operagoes e caracterlsticas de cada nlvel e denominado arquitetura. Ela trata 
dos aspectos que sao vislveis ao usuario daquele nlvel. Caracterlsticas que o programador ve, como a quantidade 
de memoria disponlvel, sao parte da arquitetura. Aspectos de implementagao, como o tipo da tecnologia usada 
para executar a memoria, nao sao parte da arquitetura. O estudo sobre como projetar as partes de um sistema de 
computador que sejam vislveis para os programadores e denominado arquitetura de computadores. Na pratica, 
contudo, arquitetura de computadores e organizagao de computadores significam basicamente a mesma coisa. 

1.1.3 Evolucao de maquinas multimveis 

Para colocar as maquinas multimveis em certa perspectiva, examinaremos rapidamente seu desenvolvimento 
historico, mostrando como o numero e a natureza dos nlveis evolulram com o passar dos anos. Programas escri¬ 
tos em uma verdadeira linguagem de maquina (nlvel 1) de um computador podem ser executados diretamente 
pelos circuitos eletronicos (nlvel 0) do computador, sem qualquer interpretador ou tradutor interveniente. Esses 
circuitos eletronicos, junto com a memoria e dispositivos de entrada/salda, formam o hardware do computador. 
Este consiste em objetos tanglveis - circuitos integrados, placas de circuito impresso, cabos, fontes de alimenta- 
gao, memorias e impressoras - em vez de ideias abstratas, algoritmos ou instrugoes. 

Por outro lado, o software consiste em algoritmos (instrugoes detalhadas que dizem como fazer algo) e suas 
representagoes no computador - isto e, programas. Eles podem ser armazenados em disco rlgido, CD-ROM, ou 
outros meios, mas a essentia do software e o conjunto de instrugoes que compoe os programas, e nao o meio 
flsico no qual estao gravados. 

Nos primeiros computadores, a fronteira entre hardware e software era nltida. Com o tempo, no entanto, 
essa fronteira ficou bastante indistinta, principalmente por causa da adigao, remogao e fusao de nlveis a medida 
que os computadores evolulam. Hoje, muitas vezes e diflcil distingui-la (Vahid, 2003). Na verdade, um tema 
central deste livro e 

Hardware e software sao logicamente equivalentes. 

Qualquer operagao executada por software tambem pode ser embutida diretamente no hardware, de preferen¬ 
ce apos ela ter sido suficientemente bem entendida. Como observou Karen Panetta: “Hardware e apenas software 
petrificado”. Claro que o contrario e verdadeiro: qualquer instrugao executada em hardware tambem pode ser 
simulada em software. A decisao de colocar certas fungoes em hardware e outras em software e baseada em fatores 
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como custo, velocidade, confiabilidade e frequencia de mudangas esperadas. Existem poucas regras rigorosas e 
imutaveis para determinar que X deva ser instalado no hardware e Y deva ser programado explicitamente. Essas 
decisoes mudam com as tendencias economicas, com a demanda e com a utilizagao de computadores. 

• A invencao da microprogramacao 

Os primeiros computadores digitais, na decada de 1940, tinham apenas dois nlveis: o nlvel ISA, no qual era 
feita toda a programagao, e o nlvel logico digital, que executava esses programas. Os circuitos do nlvel logico 
digital eram complicados, diflceis de entender e montar, e nao confiaveis. 

Em 1951, Maurice Wilkes, pesquisador da Universidade de Cambridge, sugeriu projetar um computador de 
tres nlveis para simplificar de maneira drastica o hardware e assim reduzir o numero de valvulas (pouco confia¬ 
veis) necessarias (Wilkes, 1951). Essa maquina deveria ter um interpretador embutido, imutavel (o micropro- 
grama), cuja fungao fosse executar programas de nlvel ISA por interpretagao. Como agora o hardware so teria de 
executar microprogramas, que tinham um conjunto limitado de instrugoes, em vez de programas de nlvel ISA, 
cujos conjuntos de instrugoes eram muito maiores, seria necessario um numero menor de circuitos eletronicos. 
Uma vez que, na epoca, os circuitos eletronicos eram compostos de valvulas eletronicas, tal simplificagao pro- 
metia reduzir o numero de valvulas e, portanto, aumentar a confiabilidade (isto e, o numero de falhas por dia). 

Poucas dessas maquinas de tres nlveis foram construldas durante a decada de 1950. Outras tantas foram 
construldas durante a decada de 1960. Em torno de 1970, a ideia de interpretar o nlvel ISA por um micropro- 
grama, em vez de diretamente por meios eletronicos, era dominante. Todas as principais maquinas da epoca a 
usavam. 

• A invencao do sistema operacional 

Naqueles primeiros anos, grande parte dos computadores era “acesslvel a todos”, o que significava que o 
programador tinha de operar a maquina pessoalmente. Ao lado de cada maquina havia uma planilha de utiliza¬ 
gao. Um programador que quisesse executar um programa assinava a planilha e reservava um perlodo de tempo, 
digamos, quarta-feira, das 3 as 5 da manha (muitos programadores gostavam de trabalhar quando a sala onde 
a maquina estava instalada ficava tranquila). Quando chegava seu horario, o programador se dirigia a sala da 
maquina com um pacote de cartoes perfurados de 80 colunas (um meio primitivo de entrada de dados) em uma 
das maos e um lapis bem apontado na outra. Ao chegar a sala do computador, ele gentilmente levava ate a porta 
o programador que la estava antes dele e tomava posse da maquina. 

Se quisesse executar um programa em FORTRAN, o programador devia seguir estas etapas: 

1. Ele 1 se dirigia ao armario onde era mantida a biblioteca de programas, retirava o grande mago verde 
rotulado “compilador FORTRAN”, colocava-o na leitora de cartoes e apertava o botao START. 

2. Entao, colocava seu programa FORTRAN na leitora de cartoes e apertava o botao CONTINUE. O pro¬ 
grama era lido pela maquina. 

3. Quando o computador parava, ele lia seu programa FORTRAN em um segundo momento. Embora 
alguns compiladores exigissem apenas uma passagem pela entrada, muitos demandavam duas ou mais. 
Para cada passagem, era preciso ler um grande mago de cartoes. 

4. Por fim, a tradugao se aproximava da conclusao. Era comum o programador ficar nervoso perto do 
fim porque, se o compilador encontrasse um erro no programa, ele teria de corrigi-lo e comegar 
todo o processo novamente. Se nao houvesse erro, o compilador perfurava em cartoes o programa 
traduzido para linguagem de maquina. 

5. Entao, o programador colocava o programa em linguagem de maquina na leitora de cartoes, junto com 
o mago da biblioteca de sub-rotina, e lia ambos. 


1 “Ele” deve ser entendido como “ele ou ela” em todo este livro. 
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6. O programa comegava a executar. Quase sempre nao funcionava e parava de repente no meio. Em geral, 
o programador mexia um pouco nas chaves de controle e observava as luzes do console durante alguns 
instantes. Se tivesse sorte, conseguiria descobrir qual era o problema e corrigir o erro. Em seguida, 
voltava ao armario onde estava guardado o grande e verde compilador FORTRAN e comegava tudo de 
novo. Se nao tivesse tanta sorte, imprimia o conteudo da memoria, denominado de dump de memoria, 
e o levava para casa a fim de estuda-lo. 

Esse procedimento, com pequenas variagoes, foi o normal em muitos centros de computagao durante 
anos. Ele forgava os programadores a aprender como operar a maquina e o que fazer quando ela parava, o 
que acontecia com frequencia. A maquina costumava ficar ociosa enquanto as pessoas carregavam cartoes 
pela sala afora ou cogavam a cabega tentando descobrir por que seus programas nao estavam funcionando 
adequadamente. 

Por volta de 1960, as pessoas tentaram reduzir o desperdlcio de tempo automatizando o trabalho do opera- 
dor. Um programa denominado sistema operacional era mantido no computador o tempo todo. O programador 
produzia certos cartoes de controle junto com o programa, que eram lidos e executados pelo sistema operacional. 
A Figura 1.3 apresenta uma amostra de servigo (job) para um dos primeiros sistemas operacionais de ampla uti- 
lizagao, o FMS (FORTRAN Monitor System), no IBM 709. 


Figura 1.3 


Amostra de servico (job) para o sistema operacional FMS. 


*JOB, 5494, BARBARA 
*XEQ 

"FORTRAN 


Programa ^ 
FORTRAN 


"DATA 

Cartoes 
de dados 


"END 


O sistema operacional lia o cartao *JOB e usava a informagao nele contida para fins de contabilidade. (O 
asterisco era usado para identificar cartoes de controle, para que eles nao fossem confundidos com cartoes de 
programa e de dados.) Depois, o sistema lia o cartao ^FORTRAN, que era uma instrugao para carregar o com¬ 
pilador FORTRAN a partir de uma fita magnetica. Entao, o programa era lido para a maquina e compilava pelo 
programa FORTRAN. Quando o compilador terminava, ele devolvia o controle ao sistema operacional, que entao 
lia o cartao *DATA. Isso era uma instrugao para executar o programa traduzido, usando como dados os cartoes 
que vinham apos o cartao *DATA. 

Embora o sistema operacional fosse projetado para automatizar o trabalho do operador (dal seu nome), foi 
tambem o primeiro passo para o desenvolvimento de uma nova maquina virtual. O cartao ^FORTRAN podia ser 
considerado uma instrugao virtual “compilar programa”. De modo semelhante, o cartao *DATA podia ser con- 
siderado uma instrugao virtual “executar programa”. Um nlvel que contivesse apenas duas instrugoes nao era la 
um grande nlvel, mas ja era um comego. 

Nos anos seguintes, os sistemas operacionais tornaram-se cada vez mais sofisticados. Novas instrugoes, facili- 
dades e caracterlsticas foram adicionadas ao nlvel ISA ate que ele comegou a parecer um novo nlvel. Algumas das 
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instrugoes desse novo nlvel eram identicas as do nlvel ISA, mas outras, em particular as de entrada/salda, eram 
completamente diferentes. As novas instrugoes comegaram a ficar conhecidas como macros de sistema operacio- 
nal ou chamadas do supervisor. Agora, o termo mais comum e chamada do sistema. 

Sistemas operacionais tambem se desenvolveram de outras maneiras. Os primeiros liam magos de cartoes e 
imprimiam a salda na impressora de linha. Essa organizagao era conhecida como sistema batch. Em geral, havia 
uma espera de varias horas entre o momento em que um programa entrava na maquina e o horario em que os 
resultados ficavam prontos. Era diflcil desenvolver software em tais circunstancias. 

No inlcio da decada de 1960, pesquisadores do Dartmouth College, do MIT e de outros lugares desenvol¬ 
veram sistemas operacionais que permitiam a varios programadores se comunicarem diretamente com o com- 
putador. Esses sistemas tinham terminais remotos conectados ao computador central por linhas telefonicas. O 
computador era compartilhado por muitos usuarios. Um programador podia digitar um programa e obter os 
resultados impressos quase de imediato em seu escritorio, na garagem de sua casa ou onde quer que o terminal 
estivesse localizado. Esses sistemas eram denominados sistemas de tempo compartilhado (ou timesharing ). 

Nosso interesse em sistemas operacionais esta nas partes que interpretam as instrugoes e caracterlsticas pre- 
sentes no nlvel 3 e que nao estao presentes no nlvel ISA, em vez de nos aspectos de compartilhamento de tempo. 
Embora nao venhamos a destacar o fato, voce sempre deve estar ciente de que os sistemas operacionais fazem 
mais do que apenas interpretar caracterlsticas adicionadas ao nlvel ISA. 

• Migracao de funcionalidade para microcodigo 

Assim que a microprogramagao se tornou comum (por volta de 1970), os projetistas perceberam que podiam 
acrescentar novas instrugoes simplesmente ampliando o microprograma. Em outras palavras, eles podiam acrescentar 
“hardware” (novas instrugoes de maquina) por programagao. Essa revelagao levou a uma explosao virtual de conjun- 
tos de instrugoes de maquina, pois os projetistas competiam uns com os outros para produzir conjuntos de ins¬ 
trugoes maiores e melhores. Muitas delas nao eram essenciais considerando que seu efeito podia ser conseguido 
com facilidade pelas instrugoes existentes, embora as vezes fossem um pouco mais velozes do que uma sequencia 
ja existente. Por exemplo, muitas maquinas tinham uma instrugao INC (INCrement) que somava 1 a um numero. 
Como essas maquinas tambem tinham uma instrugao geral ADD, nao era necessario ter uma instrugao especial 
para adicionar 1 (ou 720, se fosse o caso). Contudo, INC normalmente era um pouco mais rapida que ADD, e 
por isso foi inserida. 

Por essa razao, muitas outras instrugoes foram adicionadas ao microprograma. Entre elas, as mais frequentes 
eram: 

1. Instrugoes para multiplicagao e divisao de inteiros. 

2. Instrugoes aritmeticas para ponto flutuante. 

3. Instrugoes para chamar e sair de procedimentos. 

4. Instrugoes para acelerar lagos (looping). 

5. Instrugoes para manipular cadeias de caracteres. 

Alem do mais, assim que os projetistas de maquinas perceberam como era facil acrescentar novas instrugoes, 
comegaram a procurar outras caracterlsticas para adicionar aos seus microprogramas. Alguns exemplos desses 
acrescimos sao: 

1. Caracterlsticas para acelerar calculos que envolvessem vetores (indexagao e enderegamento indireto). 

2. Caracterlsticas para permitir que os programas fossem movidos na memoria apos o inlcio da execugao 
(facilidades de relocagao). 

3. Sistemas de interrupgao que avisavam o computador tao logo uma operagao de entrada ou salda 
estivesse conclulda. 



10 


Organizacao estruturada de computadores 


4. Capacidade para suspender um programa e iniciar outro com um pequeno numero de instrugoes 
(cornu tagao de processos). 

5. Instrugoes especiais para processar arquivos de audio, imagem e multimldia. 


Diversas outras caracterlsticas e facilidades tambem foram acrescentadas ao longo dos anos, em geral para 
acelerar alguma atividade particular. 

• Eliminacao da microprogramacao 

Os microprogramas engordaram durante os anos dourados da microprogramagao (decadas de 1960 e 1970) 
e tambem tendiam a ficar cada vez mais lentos a medida que se tornavam mais volumosos. Por fim, alguns pes- 
quisadores perceberam que, eliminando o microprograma, promovendo uma drastica redugao no conjunto de 
instrugoes e fazendo com que as restantes fossem executadas diretamente (isto e, controle do caminho de dados 
por hardware), as maquinas podiam ficar mais rapidas. Em certo sentido, o projeto de computadores fechou um 
clrculo completo, voltando ao modo como era antes que Wilkes inventasse a microprogramagao. 

Mas a roda continua girando. Processadores modernos ainda contam com a microprogramagao para tradu- 
zir instrugoes complexas em microcodigo interno, que pode ser executado diretamente no hardware preparado 
para isso. 

O objetivo dessa discussao e mostrar que a fronteira entre hardware e software e arbitraria e muda cons- 
tantemente. O software de hoje pode ser o hardware de amanha, e vice-versa. Alem do mais, as fronteiras 
entre os diversos nlveis tambem sao fluidas. Do ponto de vista do programador, o modo como uma instrugao 
e implementada nao e importante, exceto, talvez, no que se refere a sua velocidade. Uma pessoa que esteja 
programando no nivel ISA pode usar sua instrugao de “multiplicar” como se fosse uma instrugao de hardware 
sem ter de se preocupar com ela ou ate mesmo sem saber se ela e, na verdade, uma instrugao de hardware. O 
hardware de alguem e o software de outrem. Voltaremos a todos esses topicos mais adiante neste livro. 


1.2 Marcos da arquitetura de computadores 

Durante a evolugao do computador digital moderno, foram projetados e construldos centenas de diferentes 
tipos de computadores. Grande parte ja foi esquecida ha muito tempo, mas alguns causaram um impacto sig- 
nificativo sobre as ideias modernas. Nesta segao, vamos apresentar um breve esbogo de alguns dos principais 
desenvolvimentos historicos, para entender melhor como chegamos onde estamos agora. Neme preciso dizer que 
esta segao apenas passa por alto os pontos de maior interesse e deixa muita coisa de fora. A Figura 1.4 apresenta 
algumas maquinas que marcaram epoca e que serao discutidas nesta segao. Slater (1987) e uma boa referencia de 
consulta para quern quiser material historico adicional sobre as pessoas que inauguraram a era do computador. 
Biografias curtas e belas fotos em cores, de autoria de Louis Fabian Bachrach, de alguns dos principais fundadores 
da era do computador sao apresentadas no livro de arte de Morgan (1997). 

1.2.1 A geracao zero - computadores mecanicos (1642-1945) 

A primeira pessoa a construir uma maquina de calcular operacional foi o cientista frances Blaise Pascal 
(1623-1662), em cuja honra a linguagem Pascal foi batizada. Esse dispositivo, construldo em 1642, quando 
Pascal tinha apenas 19 anos, foi projetado para ajudar seu pai, um coletor de impostos do governo frances. Era 
inteiramente mecanico, usava engrenagens e funcionava com uma manivela operada a mao. 
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Figura 1.4 Alguns marcos no desenvolvimento do computador digital moderno. 
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A maquina de Pascal podia efetuar apenas operagoes de adigao e subtragao, mas 30 anos mais tarde o grande 
matematico alemao, barao Gottfried Wilhelm von Leibniz (1646-1716), construiu uma outra maquina mecanica 
que tambem podia multiplicar e dividir. Na verdade, Leibniz construiu o equivalente a uma calculadora de bolso 
de quatro operagoes tres seculos atras. 

Durante 150 anos nada de muito importante aconteceu, ate que um professor de matematica da Universidade 
de Cambridge, Charles Babbage (1792-1871), o inventor do veloclmetro, projetou e construiu sua primeira maqui¬ 
na diferencial. Esse dispositivo mecanico que, assim como o de Pascal, so podia somar e subtrair, foi projetado para 
calcular tabelas de numeros uteis para a navegagao marltima. Toda a construgao da maquina foi projetada para exe- 
cutar um unico algoritmo, o metodo de diferengas finitas que usava polinomios. A caracterlstica mais interessante 
dessa maquina era seu metodo de salda: ela perfurava seus resultados sobre uma chapa de gravagao de cobre com 
uma pungao de ago, prenunciando futuros meios de escrita unica como cartoes perfurados e CD-ROMs. 

Embora o dispositivo funcionasse razoavelmente bem, Babbage logo se cansou dessa maquina que so podia exe- 
cutar um unico algoritmo. Ele comegou a gas tar quantidades cada vez maiores de seu tempo e da fortuna da famllia 
(sem falar nas 17 mil libras do governo) no projeto e na construgao de uma sucessora denominada maquina ana- 
litica. A maquina analltica tinha quatro componentes: a armazenagem (memoria), o moinho (unidade de calculo), 
a segao de entrada (leitora de cartoes perfurados) e a segao de salda (salda perfurada e impressa). A armazenagem 
consistia em 1.000 palavras de 50 algarismos decimais, cada uma usada para conter variaveis e resultados. O moinho 
podia aceitar operandos da armazenagem e entao os somava, subtrala, multiplicava ou dividia e, por fim, devolvia o 
resultado a armazenagem. Assim como a maquina diferencial, ela era inteiramente mecanica. 

O grande avango da maquina analltica era ser de uso geral. Lia instrugoes de cartoes perfurados e as execu- 
tava. Algumas instrugoes mandavam a maquina buscar dois numeros na armazenagem, traze-los ate o moinho, 
efetuar uma operagao com eles (por exemplo, adigao) e enviar o resultado de volta para a armazenagem. Outras 
podiam testar um numero e desvia-lo condicionalmente, dependendo se ele era positivo ou negativo. Perfurando 
um programa diferente nos cartoes de entrada, era posslvel fazer com que a maquina analltica realizasse calculos 
diversos, o que nao acontecia com a maquina diferencial. 

Visto que a maquina analltica era programavel em uma linguagem de montagem simples, ela precisava de 
software. Para produzi-lo, Babbage contratou uma jovem de nome Ada Augusta Lovelace, que era filha do famoso 
poeta britanico Lord Byron. Assim, Ada Lovelace foi a primeira programadora de computadores do mundo. A 
linguagem de programagao Ada tern esse nome em sua homenagem. 

Infelizmente, assim como muitos projetistas modernos, Babbage nunca conseguiu depurar o hardware por 
completo. O problema era que ele precisava de milhares e milhares de dentes e rodas e engrenagens produzidos com 
um grau de precisao que a tecnologia do seculo XIX nao podia oferecer. Ainda assim, suas ideias estavam muito a 
frente de sua epoca e, ate hoje, a maioria dos computadores modernos tern uma estrutura muito semelhante a da 
maquina analltica; portanto, e mais do que justo dizer que Babbage foi avo do computador digital moderno. 

O proximo desenvolvimento importante ocorreu no final da decada de 1930, quando um estudante de enge- 
nharia alemao chamado Konrad Zuse construiu uma serie de maquinas calculadoras automaticas usando reles 
eletromagneticos. Ele nao conseguiu financiamento do governo apos o inlcio da guerra porque os burocratas 
governamentais esperavam ganhar a guerra tao rapidamente que a nova maquina so estaria pronta apos o termino 
do conflito. Zuse nao conhecia o trabalho de Babbage, e suas maquinas foram destruldas pelo bombardeio aliado 
de Berlim em 1944, portanto, seu trabalho nao teve influencia alguma sobre as maquinas subsequentes. Mesmo 
assim, ele foi um dos pioneiros da area. 

Um pouco mais tarde, nos Estados Unidos, duas pessoas tambem projetaram calculadoras, John Atanasoff no 
Iowa State College e George Stibbitz no Bell Labs. A maquina de Atanasoff era surpreendentemente avangada para 
sua epoca. Usava aritmetica binaria e a memoria era composta de capacitores recarregados periodicamente para 
impedir fuga de carga, um processo que ele denominou “sacudir a memoria”. Os chips modernos de memoria 
dinamica (DRAM) funcionam desse mesmo modo. Infelizmente, a maquina nunca se tornou operacional de fato. 
De certo modo, Atanasoff era como Babbage: um visionario que acabou derrotado pela tecnologia de hardware 
inadequada que existia em seu tempo. 
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O computador de Stibbitz, embora mais primitivo do que o de Atanasoff, funcionou de verdade. Stibbitz fez 
uma grande demons tragao publica de sua maquina durante uma conferencia no Dartmouth College em 1940. 
Uma dos presentes era John Mauchley, desconhecido professor de flsica da Universidade da Pensilvania. Mais 
tarde, o mundo da computagao ouviria mais a respeito do professor Mauchley. 

Enquanto Zuse, Stibbitz e Atanasoff projetavam calculadoras automaticas, um jovem chamado Howard 
Aiken remola tediosos calculos numericos a mao como parte de sua pesquisa de doutorado em Harvard. Depois 
de concluldo o doutorado, Aiken reconheceu a importancia de fazer calculos a maquina. Foi a biblioteca, desco- 
briu o trabalho de Babbage e decidiu construir com reles o computador de uso geral que ele nao tinha conseguido 
construir com rodas dentadas. 

A primeira maquina de Aiken, a Mark I, foi conclulda em Harvard em 1944. Tinha 72 palavras de 23 algaris- 
mos decimais cada e um tempo de instrugao de 6 s. A entrada e a salda usavam fita de papel perfurada. Quando 
Aiken concluiu o sucessor dessa maquina, a Mark II, os computadores de reles ja eram obsoletos. A era eletronica 
tinha comegado. 

1.2.2 A primeira geracao - valvulas (1945-1955) 

O estlmulo para o computador eletronico foi a Segunda Guerra Mundial. Durante a fase inicial do conflito, 
submarinos alemaes causavam estragos em navios britanicos. As instrugoes de comando dos almirantes em Berlim 
eram enviadas aos submarinos por radio, as quais os britanicos podiam interceptar - e interceptavam. O problema 
era que as mensagens eram codificadas usando um dispositivo denominado ENIGMA, cujo antecessor foi proje- 
tado pelo inventor amador e outrora presidente dos Estados Unidos, Thomas Jefferson. 

Logo no inlcio da guerra, a inteligencia britanica conseguiu adquirir uma maquina ENIGMA da inteligencia polo- 
nesa, que a tinha roubado dos alemaes 2 . Contudo, para decifrar uma mensagem codificada era preciso uma quantidade 
enorme de calculos e, para a mensagem ser de alguma utilidade, era necessario que esse calculo fosse concluldo logo 
depois de ela ter sido interceptada. Para decodificar essas mensagens, o governo britanico montou um laboratorio 
ultrassecreto que construiu um computador eletronico denominado COLOSSUS. O famoso matematico britanico Alan 
Turing ajudou a projetar essa maquina. Esse computador funcionava desde 1943, mas, uma vez que o governo brita¬ 
nico guardou praticamente todos os aspectos do projeto como segredo militar durante 30 anos, a linha COLOSSUS foi 
um beco sem salda. So vale a pena cita-lo por ter sido o primeiro computador digital eletronico do mundo. 

Alem de destruir as maquinas de Zuse e estimular a construgao do COLOSSUS, a guerra tambem afetou 
a computagao nos Estados Unidos. O exercito precisava de tabelas de alcance visando sua artilharia pesada, e 
as produzia contratando centenas de mulheres para fazer os calculos necessarios com calculadoras de mao (as 
mulheres eram consideradas mais precisas que os homens). Ainda assim, o processo era demorado e surgiam 
erros com frequencia. 

John Mauchley, que conhecia o trabalho de Atanasoff, bem como o de Stibbitz, sabia que o exercito estava 
interessado em calculadoras mecanicas. Como muitos cientistas da computagao que vieram depois dele, Mauchley 
montou uma proposta solicitando ao exercito financiamento para a construgao de um computador eletronico. A 
proposta foi aceita em 1943, e Mauchley e seu aluno de pos-graduagao, J. Presper Eckert, passaram a construir 
um computador eletronico, ao qual deram o nome de ENIAC (Electronic Numerical Integrator And Computer - 
integrador e computador numerico eletronico). O ENIAC consistia em 18 mil valvulas e 1.500 reles, pesava 
30 toneladas e consumia 140 kw de energia. Em termos de arquitetura, a maquina tinha 20 registradores, 
cada um com capacidade para conter um numero decimal de 10 algarismos. (Um registrador decimal e uma 
memoria muito pequena que pode conter desde um numero ate outro numero maximo de casas decimais, 
mais ou menos como o odometro, que registra quanto um carro rodou em seu tempo de vida util.) O ENIAC 
era programado com o ajuste de ate 6 mil interruptores multiposigao e com a conexao de uma imensa quan¬ 
tidade de soquetes com uma verdadeira floresta de cabos de interligagao. 


2 N. do RT: Antes da guerra, os alemaes vendiam uma versao comercial da ENIGMA com tres engrenagens, modelo igual ao que os poloneses 
passaram aos ingleses. A versao militar possuia quatro engrenagens. Em: Stephen Budiansky. Battle of Wits - The complete story of codebreaking 
in World War II. Penguin Books Ltd.: Londres, 2000. 
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A construgao da maquina so foi conclulda em 1946, tarde demais para ser de alguma utilidade em relagao 
a seu proposito original. Todavia, como a guerra tinha acabado, Mauchley e Eckert receberam permissao para 
organizar um curso de verao para descrever seu trabalho para seus colegas cientistas. Aquele curso de verao foi o 
inlcio de uma explosao de inter esse na construgao de grandes computadores digitais. 

Apos aquele curso de verao historico, outros pesquisadores se dispuseram a construir computadores ele- 
tronicos. O primeiro a entrar em operagao foi o EDSAC (1949), construldo na Universidade de Cambridge por 
Maurice Wilkes. Entre outros, figuravam JOHNNIAC, da Rand Corporation; o ILLIAC, da Universidade de 
Illinois; o MANIAC, do Los Alamos Laboratory; e o WEIZAC, do Weizmann Institute em Israel. 

Eckert e Mauchley logo comegaram a trabalhar em um sucessor, o EDVAC (Electronic Discrete 
Variable Automatic Computer). Contudo, o projeto ficou fatalmente comprometido quando eles deixaram a 
Universidade da Pensilvania para fundar uma empresa nova, a Eckert-Mauchley Computer Corporation, na 
Filadelfia. (O Vale do Sillcio ainda nao tinha sido inventado.) Apos uma serie de fusoes, a empresa se tornou 
a moderna Unisys Corporation. 

Como um aporte legal, Eckert e Mauchley solicitaram uma patente alegando que haviam inventado o compu- 
tador digital. Em retrospecto, possuir essa patente nao seria nada mau. Apos anos de litlgio, o tribunal decidiu que 
a patente de Eckert-Mauchley era invalida e que John Atanasoff tinha inventado o computador digital, embora 
nunca o tivesse patenteado, colocando efetivamente a invengao em domlnio publico. 

Enquanto Eckert e Mauchley trabalhavam no EDVAC, uma das pessoas envolvidas no projeto ENIAC, 
John von Neumann, foi para o Institute of Advanced Studies de Princeton para construir sua propria versao do 
EDVAC, a maquina IAS. Von Neumann era um genio, da mesma estirpe de Leonardo da Vinci. Falava muitos 
idiomas, era especialista em ciencias flsicas e matematica e guardava na memoria tudo o que ja tinha ouvido, visto 
ou lido. Conseguia citar sem consulta, palavra por palavra, o texto de livros que tinha lido anos antes. Na epoca 
em que se interessou por computadores, ja era o mais eminente matematico do mundo. 

Uma das coisas que logo ficou obvia para ele foi que programar computadores com quantidades imensas de 
interruptores e cabos era uma tarefa lenta, tediosa e inflexlvel. Ele percebeu que o programa podia ser represen- 
tado em forma digital na memoria do computador, junto com os dados. Tambem viu que a desajeitada aritmetica 
decimal serial usada pelo ENIAC, com cada dlgito representado por 10 valvulas (1 acesa e 9 apagadas), podia ser 
substitulda por aritmetica binaria paralela, algo que Atanasoff tinha percebido anos antes. 

O projeto basico, o primeiro que ele descreveu, agora e conhecido como maquina de von Neumann. Ela foi 
usada no EDSAC, o primeiro computador de programa armazenado, e agora, mais de meio seculo depois, ainda e 
a base de quase todos os computadores digitais. Esse projeto - e a maquina IAS, construlda em colaboragao com 
Herman Goldstine - teve uma influencia tao grande que vale a pena descreve-lo rapidamente. Embora o nome 
de von Neumann esteja sempre ligado a esse projeto, Goldstine e outros tambem lhe deram grande contribuigao. 
Um esbogo da arquitetura e dado na Figura 1.5. 


Figura 1.5 


Maquina original de von Neumann. 
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A maquina de von Neumann tinha cinco partes basicas: a memoria, a unidade de logica e aritmetica, a 
unidade de controle e o equipamento de entrada e salda. A memoria consistia em 4.096 palavras, uma palavra 
contendo 40 bits, cada bit sendo 0 ou 1. Cada palavra continha ou duas instrugoes de 20 bits ou um inteiro de 
40 bits com sinal. As instrugoes tinham 8 bits dedicados a identificar o tipo da instrugao e 12 bits para especificar 
uma das 4.096 palavras de memoria. Juntas, a unidade de logica e aritmetica e a unidade de controle formavam 
o “cerebro” do computador. Em computadores modernos, elas sao combinadas em um unico chip, denominado 
CPU (Central Processing Unit - unidade central de processamento). 

Dentro da unidade de logica e aritmetica havia um registrador interno especial de 40 bits, denominado acu- 
mulador. Uma instrugao tlpica adicionava uma palavra de memoria ao acumulador ou armazenava o conteudo 
deste na memoria. A maquina nao tinha aritmetica de ponto flutuante porque von Neumann achava que qualquer 
matematico competente conseguiria acompanhar o ponto decimal (na verdade, o ponto binario) de cabega. 

Mais ou menos ao mesmo tempo em que von Neumann construla sua maquina IAS, pesquisadores do MIT 
tambem estavam construindo um computador. Diferente do IAS, do ENIAC e de outras maquinas desse tipo, cujas 
palavras tinham longos comprimentos e eram destinadas a calculos numericos pesados, a maquina do MIT, a 
Whirlwind I, tinha uma palavra de 16 bits e era projetada para controle em tempo real. Esse projeto levou a inven- 
gao da memoria de nucleo magnetico por Jay Forrester e, depois, por fim, ao primeiro minicomputador comercial. 

Enquanto tudo isso estava acontecendo, a IBM era uma pequena empresa dedicada ao negocio de produzir 
perfuradoras de cartoes e maquinas mecanicas de classificagao de cartoes. Embora tenha contribuldo para o finan- 
ciamento de Aiken, a IBM nao estava muito interessada em computadores ate que produziu o 701 em 1953, muito 
tempo apos a empresa de Eckert e Mauchley ter alcangado o posto de numero um no mercado comercial, com 
seu computador UNIVAC. O 701 tinha 2.048 palavras de 36 bits, com duas instrugoes por palavra. Foi o primeiro 
de uma serie de maquinas cientlficas que vieram a dominar o setor dentro de uma decada. Tres anos mais tarde, 
apareceu o 704 que, de inlcio, tinha 4.096 palavras de memoria de nucleos, instrugoes de 36 bits e uma inovagao: 
hardware de ponto flutuante. Em 1958, a IBM comegou a produzir sua ultima maquina de valvulas, a 709, que 
era basicamente um 704 incrementado. 


1.2.3 A segunda geracao - transistores (1955-1965) 

O transistor foi inventado no Bell Labs em 1948 por John Bardeen, Walter Brattain e William Shockley, pelo 
qual receberam o Premio Nobel de flsica de 1956. Em dez anos, o transistor revolucionou os computadores e, ao 
final da decada de 1950, os computadores de valvulas estavam obsoletos. O primeiro computador transistorizado 
foi construldo no Lincoln Laboratory do MIT, uma maquina de 16 bits na mesma linha do Whirlwind I. Recebeu 
o nome de TX-0 (Transistorized experimental computer 0 - computador transistorizado experimental 0), e a 
intengao era usa-la apenas como dispositivo para testar o muito mais elegante TX-2. 

O TX-2 nunca foi um grande sucesso, mas um dos engenheiros que trabalhava no laboratorio, Kenneth 
Olsen, fundou uma empresa, a Digital Equipment Corporation (DEC), em 1957, para fabricar uma maquina 
comercial muito parecida com o TX-0. Quatro anos se passaram antes que tal maquina, o PDP-1, aparecesse, 
principalmente porque os investidores de risco que fundaram a DEC estavam convictos de que nao havia merca¬ 
do para computadores. Afinal, T. J. Watson, antigo presidente da IBM, certa vez dissera que o mercado mundial 
de computadores correspondia a cerca de quatro ou cinco unidades. Em vez de computadores, a DEC vendia 
pequenas placas de circuitos. 

Quando o PDP-1 finalmente apareceu em 1961, tinha 4.096 palavras de 18 bits e podia executar 200 mil ins¬ 
trugoes por segundo. Esse desempenho era a metade do desempenho do IBM 7090, o sucessor transistorizado do 
709 e o computador mais rapido do mundo na epoca. O PDP-1 custava 120 mil dolares; o 7090 custava milhoes. 
A DEC vendeu dezenas de PDP-ls, e nascia a industria de minicomputadores. 

Um dos primeiros PDP-ls foi dado ao MIT, onde logo atraiu a atengao de alguns novos genios em aprimo- 
ramento tao comuns ah. Uma das muitas inovagoes do PDP-1 era um visor e a capacidade de plotar pontos em 
qualquer lugar de sua tela de 512 por 512. Em pouco tempo, os estudantes ja tinham programado o PDP-1 para 
jogar Spacewar, e o mundo teria ganhado seu primeiro videogame. 
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Alguns anos mais tarde, a DEC langou o PDP-8, que era uma maquina de 12 bits, porem muito mais barata 
que o PDP-1 (16 mil dolares). O PDP-8 tinha uma importante inovagao: um barramento unico, o omnibus, con- 
forme mostra a Figura 1.6. Um barramento e um conjunto de fios paralelos usados para conectar os componen- 
tes de um computador. Essa arquitetura foi uma ruptura importante em relagao a arquitetura da maquina IAS, 
centrada na memoria, e, desde entao, foi adotada por quase todos os computadores de pequeno porte. A DEC 
alcangou a marca de 50 mil PDP-8 vendidos, o que a consolidou como a lider no negocio de minicomputadores. 


Figura 1.6 


Barramento omnibus do PDP-8. 
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Enquanto isso, a reagao da IBM ao transistor foi construir uma versao transistorizada do 709, o 7090, como 
ja mencionamos, e, mais tarde, o 7094. Esse ultimo tinha um tempo de ciclo de 2 microssegundos e 32.768 pala- 
vras de 36 bits de memoria de nucleos. O 7090 e o 7094 marcaram o final das maquinas do tipo ENIAC, mas 
dominaram a computagao cientlfica durante anos na decada de 1960. 

Ao mesmo tempo em que se tornava uma grande forga na computagao cientlfica com o 7094, a IBM estava 
ganhando muito dinheiro com a venda de uma pequena maquina dirigida para empresas, denominada 1401. Essa 
maquina podia ler e escrever fitas magneticas, ler e perfurar cartoes, alem de imprimir salda de dados quase tao 
rapidamente quanto o 7094, e por uma fragao do prego dele. Era terrlvel para a computagao cientlfica, mas per- 
feita para manter registros comerciais. 

O 1401 era fora do comum porque nao tinha nenhum registrador, nem mesmo um comprimento de palavra 
fixo. Sua memoria tinha 4 mil bytes de 8 bits, embora modelos posteriores suportassem ate incrlveis 16 mil bytes. 
Cada byte continha um caractere de 6 bits, um bit administrativo e um bit para indicar o final da palavra. Uma 
instrugao MOVE, por exemplo, tinha um enderego-fonte e um enderego-destino, e comegava a transferir bytes da 
fonte ao destino ate encontrar um bit de final com valor 1. 

Em 1964, uma minuscula e desconhecida empresa, a Control Data Corporation (CDC), langou a 6600, uma 
maquina que era cerca de uma ordem de grandeza mais rapida do que a poderosa 7094 e qualquer outra existente 
na epoca. Foi amor a primeira vista para os calculistas, e a CDC partiu a caminho do sucesso. O segredo de sua 
velocidade e a razao de ser tao mais rapida do que a 7094 era que, dentro da CPU, havia uma maquina com alto 
grau de paralelismo. Ela tinha diversas unidades funcionais para efetuar adigoes, outras para efetuar multiplica- 
goes e ainda mais uma para divisao, e todas elas podiam funcionar em paralelo. Embora extrair o melhor dessa 
maquina exigisse cuidadosa programagao, com um pouco de trabalho era posslvel executar dez instrugoes ao 
mesmo tempo. 

Como se nao bastasse, a 6600 tinha uma serie de pequenos computadores internos para ajuda-la, uma espe- 
cie de “Branca de Neve e as Sete Pessoas Verticalmente Prejudicadas”. Isso significava que a CPU podia gastar 
todo o seu tempo processando numeros, deixando todos os detalhes de gerenciamento de jobs e entrada/salda 
para os computadores menores. Em retrospecto, a 6600 estava decadas a frente de sua epoca. Muitas das ideias 
fundamental encontradas em computadores modernos podem ser rastreadas diretamente ate ela. 

O projetista da 6600, Seymour Cray, foi uma figura legendaria, da mesma estatura de von Neumann. Ele 
dedicou sua vida inteira a construgao de maquinas cada vez mais rapidas, denominadas entao de supercomputa- 
dores, incluindo a 6600, 7600 e Cray-1. Tambem inventou o famoso algoritmo para comprar carros: va a conces- 
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sionaria mais proxima de sua casa, aponte para o carro mais proximo da porta e diga: “Vou levar aquele”. Esse 
algoritmo gasta o mlnimo de tempo em coisas sem importancia (como comprar carros) para deixar o maximo de 
tempo livre para fazer coisas importantes (como projetar supercomputadores). 

Havia muitos outros computadores nessa epoca, mas um se destaca por uma razao bem diferente e que 
vale a pena mencionar: o Burroughs B5000. Os projetistas de maquinas como PDP-1, 7094 e 6600 estavam 
totalmente preocupados com o hardware, seja para que ficassem mais baratos (DEC) ou mais rapidos (IBM e 
CDC). O software era praticamente irrelevante. Os projetistas do B5000 adotaram uma linha de agao diferente. 
Construlram uma maquina com a intengao especlfica de programa-la em linguagem Algol 60, uma precursora 
da C e da Java, e inclulram muitas caracterlsticas no hardware para facilitar a tarefa do compilador. Nascia a 
ideia de que o software tambem era importante. Infelizmente, ela foi esquecida quase de imediato. 

1.2.4 A terceira geracao - circuitos integrados (1965-1980) 

A invengao do circuito integrado de sillcio por Jack Kilby e Robert Noyce (trabalhando independentemente) 
em 1958 permitiu que dezenas de transistores fossem colocados em um unico chip. Esse empacotamento possi- 
bilitava a construgao de computadores menores, mais rapidos e mais baratos do que seus precursores transistori- 
zados. Alguns dos computadores mais significativos dessa geragao sao descritos a seguir. 

Em 1964, a IBM era a empresa lider na area de computadores e tinha um grande problema com suas duas 
maquinas de grande sucesso, a 7094 e a 1401: elas eram tao incompatlveis quanto duas maquinas podem ser. 
Uma era uma processadora de numeros de aha velocidade, que usava aritmetica binaria em registradores de 36 
bits; a outra, um processador de entrada/salda avantajado, que usava aritmetica decimal serial sobre palavras de 
comprimento variavel na memoria. Muitos de seus clientes empresariais tinham ambas e nao gostavam da ideia 
de ter dois departamentos de programagao sem nada em comum. 

Quando chegou a hora de substituir essas duas series, a IBM deu um passo radical. Langou uma unica linha 
de produtos, a linha System/360, baseada em circuitos integrados e projetada para computagao cientlfica e tam¬ 
bem comercial. A linha System/360 continha muitas inovagoes, das quais a mais importante era ser uma famllia 
de uma meia duzia de maquinas com a mesma linguagem de montagem e tamanho e capacidade crescentes. Uma 
empresa poderia substituir seu 1401 por um 360 Modelo 30 e seu 7094 por um 360 Modelo 75. O Modelo 75 
era maior e mais rapido (e mais caro), mas o software escrito para um deles poderia, em princlpio, ser executado 
em outro. Na pratica, o programa escrito para um modelo pequeno seria executado em um modelo grande sem 
problemas. Porem, a reclproca nao era verdadeira. Quando transferido para uma maquina menor, o programa 
escrito para um modelo maior poderia nao caber na memoria. Ainda assim, era uma importante melhoria em 
relagao a situagao do 7094 e do 1401. A ideia de famllias de maquinas foi adotada de pronto e, em poucos anos, 
a maioria dos fabricantes de computadores tinha uma famllia de maquinas comuns que abrangiam uma ampla 
faixa de pregos e desempenhos. Algumas caracterlsticas da primeira famllia 360 sao mostradas na Figura 1.7. Mais 
tarde, foram langados outros modelos. 


Figura 1.7 Oferta inicial da linha de produtos IBM 360. 
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Modelo 30 

Modelo 40 

Modelo 50 

Modelo 65 

Desempenho relativo 

1 

3,5 

10 

21 

Tempo de ciclo (em bilionesimos de segundo) 

1.000 

625 

500 

250 

Memoria maxima (bytes) 

65.536 

262.144 

262.144 

524.288 

Bytes lidos por ciclo 

1 

2 

4 

16 

Numero maximo de canais de dados 

3 

3 

4 

6 
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Outra importante inovagao da linha 360 era a multiprogramagao, com varios programas na memoria ao 
mesmo tempo, de modo que, enquanto um esperava por entrada/salda para concluir sua tarefa, outro podia exe- 
cutar, o que resultava em uma utilizagao mais alta da CPU. 

A 360 tambem foi a primeira maquina que podia emular (simular) outros computadores. Os modelos meno- 
res podiam emular a 1401, e os maiores podiam emular a 7094, de maneira que os clientes podiam continuar a 
executar seus antigos programas binarios sem modificagao durante a conversao para a 360. Alguns modelos exe- 
cutavam programas 1401 com uma rapidez tao maior que a propria 1401 que muitos clientes nunca converteram 
seus programas. 

A emulagao era facil na 360 porque todos os modelos iniciais e grande parte dos que vieram depois eram 
microprogramados. Bastava que a IBM escrevesse tres microprogramas: um para o conjunto nativo de instrugoes 
da 360, um para o conjunto de instrugoes da 1401 e outro para o conjunto de instrugoes da 7094. Essa flexibili- 
dade foi uma das principais razoes para a introdugao da microprogramagao na 360. E logico que a motivagao de 
Wilkes para reduzir a quantidade de valvulas nao importava mais, pois a 360 nao tinha valvula alguma. 

A 360 resolveu o dilema “binaria paralela” versus “decimal serial” com uma solugao conciliatory: a maquina 
tinha 16 registradores de 32 bits para aritmetica binaria, mas sua memoria era orientada para bytes, como a da 1401. 
Tambem tinha instrugoes seriais no estilo da 1401 para movimentar registros de tamanhos variaveis na memoria. 

Outra caracterlstica importante da 360 era (para a epoca) um imenso espago de enderegamento de 2 24 
(16.777.216) bytes. Como naquele tempo a memoria custava varios dolares por byte, esse tanto de memoria 
parecia uma infinidade. Infelizmente, a serie 360 foi seguida mais tarde pelas series 370, 4300, 3080, 3090, 390 
e a serie z, todas usando basicamente a mesma arquitetura. Em meados da decada de 1980, o limite de memoria 
tornou-se um problema real e a IBM teve de abandonar a compatibilidade em parte, quando mudou para endere- 
gos de 32 bits necessarios para enderegar a nova memoria de 2 32 bytes. 

Com o beneflcio de uma percepgao tardia, podemos argumentar que, uma vez que de qualquer modo tinham 
palavras e registros de 32 bits, provavelmente tambem deveriam ter enderegos de 32 bits, mas na epoca ninguem podia 
imaginar uma maquina com 16 milhoes de bytes de memoria. Embora a transigao para enderegos de 32 bits tenha sido 
bem-sucedida para a IBM, essa mais uma vez foi apenas uma solugao temporary para o problema do enderegamento de 
memoria, pois os sistemas de computagao logo exigiriam a capacidade de enderegar mais de 2 32 (4.294.967.296) bytes 
de memoria. Dentro de mais alguns anos, entrariam em cena os computadores com enderegos de 64 bits. 

O mundo dos minicomputadores tambem avangou um grande passo na diregao da terceira geragao quando a 
DEC langou a serie PDP-11, um sucessor de 16 bits do PDP-8. Sob muitos aspectos, a serie PDP-11 era como um 
irmao menor da serie 360, tal como o PDP-1 era um irmaozinho da 7094. Ambos, 360 e PDP-11, tinham registra¬ 
dores orientados para palavras e uma memoria orientada para bytes, e ambos ocupavam uma faixa que abrangia 
uma consideravel relagao prego/desempenho. O PDP-11 teve enorme sucesso, em especial nas universidades, e 
deu continuidade a lideranga da DEC sobre os outros fabricantes de minicomputadores. 

1.2.5 A quarta geracao - integracao em escala muito grande (1980-?) 

Na decada de 1980, a VLSI (Very Large Scale Integration - integragao em escala muito grande) tinha pos- 
sibilitado colocar primeiro dezenas de milhares, depois centenas de milhares e, por fim, milhoes de transistores 
em um unico chip. Esse desenvolvimento logo levou a computadores menores e mais rapidos. Antes do PDP-1, 
os computadores eram tao grandes e caros que empresas e universidades tinham de ter departamentos especiais 
denominados centrais de computagao para usa-los. Com a chegada do minicomputador, cada departamento 
podia comprar sua propria maquina. Em 1980, os pregos calram tanto que era viavel um unico indivlduo ter seu 
proprio computador. Tinha inlcio a era do computador pessoal. 

Computadores pessoais eram utilizados de modo muito diferente dos computadores grandes. Eram usados 
para processar textos, montar planilhas e para numerosas aplicagoes de alto grau de interagao (como os jogos) 
que as maquinas maiores nao manipulavam bem. 

Os primeiros computadores pessoais costumavam ser vendidos como kits. Cada kit continha uma placa de 
circuito impresso, um punhado de chips, que em geral inclula um Intel 8080, alguns cabos, uma fonte de energia 
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e talvez um disco flexlvel de 8 polegadas. Juntar essas partes para montar um computador era tarefa do com¬ 
prador. O software nao era fornecido. Se quisesse algum, voce mesmo teria de escreve-lo. Mais tarde, o sistema 
operacional CP/M, escrito por Gary Kildall, tornou-se popular nos 8080s. Era um verdadeiro sistema operacional 
em disco flexlvel, com um sistema de arquivo e comandos de usuario digitados no teclado e enviados a um pro- 
cessador de comandos (shell). 

Outro computador pessoal era o Apple, e mais tarde o Apple II, projetados por Steve Jobs e Steve Wozniak 
na tao falada garagem. Essa maquina gozava de enorme popularidade entre usuarios domesticos e em escolas, e 
fez da Apple uma participante seria no mercado quase da noite para o dia. 

Depois de muito deliberar e observar o que as outras empresas estavam fazendo, a IBM, que entao era a 
forga dominante na industria de computadores, por fim decidiu que queria entrar no negocio de computadores 
pessoais. Em vez de projetar toda a maquina partindo do zero, usando somente pegas da IBM, o que levaria tempo 
demasiado, fez algo que nao lhe era caracterlstico. Deu a Philip Estridge, um de seus executivos, uma grande mala 
de dinheiro e disse-lhe que fosse para bem longe dos acionistas intrometidos da sede da empresa em Armonk, 
Nova York, e so voltasse quando tivesse um computador pessoal em funcionamento. Estridge se estabeleceu a 
dois mil km da sede, em Boca Raton, Florida, escolheu o Intel 8088 como sua CPU, e construiu o IBM Personal 
Computer com componentes encontrados na praga. Foi langado em 1981 e logo se tornou o maior campeao de 
vendas de computadores da historia. Quando o PC alcangou 30 anos, foram publicados diversos artigos sobre sua 
historia, incluindo os de Bradley (2011), Goth (2011), Bride (2011) e Singh (2011). 

A IBM tambem fez algo que nao lhe era caracterlstico e de que mais tarde viria a se arrepender. Em vez de 
manter o projeto da maquina em total segredo (ou ao menos protegido por uma patente), como costumava fazer, 
a empresa publicou os pianos completos, incluindo todos os diagramas de circuitos, em um livro vendido por 49 
dolares. A ideia era possibilitar a fabricagao, por outras empresas, de placas de expansao ( plug-in ) para o IBM PC, 
a fim de aumentar sua flexibilidade e popularidade. Infelizmente para a IBM, uma vez que o projeto se tornara 
totalmente publico e era facil obter todas as pegas no mercado, inumeras outras empresas comegaram a fabricar 
clones do PC, muitas vezes por bem menos do que a IBM estava cobrando. Assim, comegava toda uma industria. 

Embora outras empresas fabricassem computadores pessoais usando CPUs nao fornecidas pela Intel, entre 
elas Commodore, Apple e Atari, o impulso adquirido pela industria do IBM PC era tao grande que os outros foram 
esmagados por esse rolo compressor. Apenas uns poucos sobreviveram, em nichos de mercado. 

Um dos que sobreviveram, embora por um triz, foi o Macintosh da Apple. O Macintosh foi langado em 1984 
como o sucessor do malfadado Lisa, o primeiro computador que vinha com uma GUI (Graphical User Interface - 
interface grafica de usuario), semelhante a agora popular interface Windows. O Lisa fracassou porque era muito 
caro, mas o Macintosh de menor prego langado um ano depois foi um enorme sucesso e inspirou amor e paixao 
entre seus muitos admiradores. 

Esse primeiro mercado do computador pessoal tambem levou ao desejo ate entao inaudito por computadores 
porta teis. Naquele tempo, um computador porta til fazia tanto sentido quanto hoje faz um refrigerador porta til. 
O primeiro verdadeiro computador pessoal portatil foi o Osborne-1 que, com 11 quilos, era mais um computa¬ 
dor “arrastavel” do que portatil. Ainda assim, era prova de que a ideia de um computador portatil era posslvel. 
O Osborne-1 foi um sucesso comercial modesto, mas um ano mais tarde a Compaq langou seu primeiro clone 
portatil do IBM PC e logo se estabeleceu como a lider no mercado de computadores portateis. 

A versao inicial do IBM PC vinha equipada com o sistema operacional MS-DOS fornecido pela entao minus- 
cula Microsoft Corporation. Assim como a Intel conseguia produzir CPUs cada vez mais potentes, a IBM e a 
Microsoft conseguiram desenvolver um sucessor do MS-DOS, denominado OS/2, que apresentava uma interface 
grafica de usuario semelhante a do Apple Macintosh. Ao mesmo tempo, a Microsoft tambem desenvolvia seu 
proprio sistema operacional, o Windows, que rodava sobre o MS-DOS caso o OS/2 nao pegasse. Para encurtar 
a historia, o OS/2 nao pegou, a IBM e a Microsoft tiveram uma ruptura notavelmente publica e a Microsoft foi 
adiante e transformou o Windows em um enorme sucesso. O modo como a minuscula Intel e a mais insignifi- 
cante ainda Microsoft conseguiram destronar a IBM, uma das maiores, mais ricas e mais poderosas corporagoes 
da historia mundial, e uma parabola sem duvida relatada com grandes detalhes nas escolas de administragao de 
empresas de todo o mundo. 
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Com o sucesso do 8088 em maos, a Intel continuou fazendo versoes maiores e melhores dele. 
Particularmente digno de nota foi o 80386, langado em 1985, que tinha uma CPU de 32 bits. Este foi segui- 
do por uma versao melhorada, naturalmente denominada 80486. As versoes seguintes receberam os nomes 
Pentium e Core. Esses chips sao usados em quase todos os PCs modernos. O nome generico que muita gente 
usa para descrever a arquitetura desses processadores e x86. Os chips compatlveis, fabricados pela AMD, tam- 
bem sao denominados x86s. 

Em meados da decada de 1980, um novo desenvolvimento denominado RISC (discutido no Capltulo 2) 
comegou a se impor, substituindo complicadas arquiteturas (CISC) por outras bem mais simples, embora mais 
rapidas. Na decada de 1990, comegaram a aparecer CPUs superescalares. Essas maquinas podiam executar 
varias instrugoes ao mesmo tempo, muitas vezes em ordem diferente da que aparecia no programa. Vamos 
apresentar os conceitos de CISC, RISC e superescalar no Capltulo 2 e discuti-los em detalhes ao longo de todo 
este livro. 

Tambem em meados da decada de 1980, Ross Freeman e seus colegas na Xilinx desenvolveram uma tecnica 
inteligente para montar circuitos integrados, que nao exigia uma fortuna ou o acesso a uma fabrica de sillcio. Esse 
novo tipo de chip de computador, denominado FPGA (Field-Programmable Gate Array), continha uma grande 
quantidade de portas logicas genericas, que poderiam ser “programadas” em qualquer circuito que coubesse no 
dispositivo. Essa extraordinaria nova tecnica de projeto tornou o hardware FPGA tao maleavel quanto o software. 
Usando FPGAs que custavam dezenas a centenas de dolares americanos, era posslvel montar sistemas de compu- 
tagao especializados para aplicagoes exclusivas, que serviam apenas a alguns usuarios. Felizmente, as empresas de 
fabricagao de sillcio ainda poderiam produzir chips mais rapidos, com menor consumo de energia e mais baratos 
para aplicagoes que precisavam de milhoes de chips. Porem, para aplicagoes com apenas alguns poucos usuarios, 
como prototipagem, aplicagoes de projeto em baixo volume e educagao, FPGAs continuam sendo uma ferramenta 
popular para a construgao do hardware. 

Ate 1992, computadores pessoais eram de 8, 16 ou 32 bits. Entao, a DEC surgiu com o revoluciona- 
rio Alpha de 64 bits, uma verdadeira maquina RISC de 64 bits cujo desempenho ultrapassava por grande 
margem o de todos os outros computadores pessoais. Seu sucesso foi modesto, mas quase uma decada se 
passou antes que as maquinas de 64 bits comegassem a ter grande sucesso e, na maior parte das vezes, como 
servidores de topo de linha. 

Durante a decada de 1990, os sistemas de computagao estavam se tornando cada vez mais rapidos 
usando uma serie de aperfeigoamentos microarquitetonicos, e muitos deles serao examinados neste livro. 
Os usuarios desses sistemas eram procurados pelos vendedores de computador, pois cada novo sistema que 
eles compravam executava seus programas muito mais depressa do que em seu antigo sistema. Porem, ao 
final da decada, essa tendencia estava comegando a desaparecer, devido a obstaculos importantes no projeto 
do computador: os arquitetos estavam esgotando seus truques para tornar seus programas mais rapidos e 
os processadores estavam ficando mais caros de resfriar. Desesperadas para continuar a montar processa¬ 
dores mais rapidos, a maioria das empresas de computador comegou a se voltar para arquiteturas paralelas 
como um modo de obter mais desempenho do seu sillcio. Em 2001, a IBM introduziu a arquitetura dual 
core POWER4. Essa foi a primeira vez que uma CPU importante incorporava dois processadores no mesmo 
substrato. Hoje, a maioria dos processadores da classe desktop e servidor, e ate mesmo alguns processadores 
embutidos, incorporam multiplos processadores no chip. Infelizmente, o desempenho desses multiproces- 
sadores tern sido menor que estelar para o usuario comum, pois (como veremos em outros capltulos) as 
maquinas paralelas exigem que os programadores trabalhem explicitamente em paralelo, o que e diflcil e 
passlvel de erros. 

1.2.6 A quinta geracao - computadores de baixa potencia e invisiveis 

Em 1981, o governo japones anunciou que estava planejando gastar 500 milhoes de dolares para ajudar 
empresas a desenvolver computadores de quinta geragao que seriam baseados em inteligencia artificial e repre¬ 
sen tariam um salto quantico em relagao aos computadores “burros” da quarta geragao. Como ja tinham vis to 
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empresas japonesas se apossarem do mercado em muitos setores, de maquinas fotograficas a aparelhos de som e 
de televisao, os fabricantes de computadores americanos e europeus foram de zero a panico total em um milisse- 
gundo, exigindo subsldios do governo e outras coisas. A despeito do grande barulho, o projeto japones da quinta 
geragao fracassou e foi abandonado sem alarde. Em certo sentido, foi como a maquina analltica de Babbage - 
uma ideia visionaria, mas tao a frente de seu tempo que nem se podia vislumbrar a tecnologia necessaria para 
realmente construl-la. 

Nao obstante, aquilo que poderia ser denominado a quinta geragao na verdade aconteceu, mas de modo ines- 
perado: os computadores encolheram. Em 1989, a Grid Systems langou o primeiro tablet, denominado GridPad. 
Ele consistia em uma pequena tela em que os usuarios poderiam escrever com uma caneta especial, para controlar 
o sistema. Sistemas como o GridPad mostraram que os computadores nao precisam estar sobre uma mesa ou em 
uma sala de servidores, mas poderiam ser colocados em um pacote facil de carregar, com telas senslveis ao toque 
e reconhecimento de escrita, para torna-los ainda mais valiosos. 

O Newton da Apple, langado em 1993, mostrou que um computador podia ser construldo dentro de um 
involucro nao maior do que um tocador de fitas cassete porta til. Assim como o GridPad, o Newton usava escrita 
a mao para entrada do usuario, o que provou ser um grande obstaculo, mas maquinas posteriores dessa classe, 
agora denominadas PDAs (Personal Digital Assistants - assistentes digitais pessoais), aprimoraram as interfa¬ 
ces de usuario e tornaram-se muito populares. Agora, elas evolulram para smartphones. 

Por fim, a interface de escrita do PDA foi aperfeigoada por Jeff Hawkins, que criou uma empresa chamada 
Palm para desenvolver um PDA de baixo custo para o mercado consumidor em massa. Hawkins era engenheiro 
eletrico por treinamento, mas tinha um real interesse pela neurociencia, que e o estudo do cerebro humano. 
Ele observou que o reconhecimento da escrita a mao poderia se tornar mais confiavel treinando-se os usuarios 
a escreverem de uma maneira mais leglvel pelos computadores, uma tecnica de entrada que ele chamou de 
“Graffiti”. Ela exigia um pouco de treinamento para o usuario, mas por fim levou a uma escrita mais rapida e mais 
confiavel, e o primeiro PDA da Palm, denominado Palm Pilot, foi um grande sucesso. Graffiti e um dos grandes 
sucessos na computagao, demonstrando o poder da mente humana de tirar proveito do poder da mente humana. 

Os usuarios de PDAs eram adeptos destes dispositivos, usando-os religiosamente para gerenciar seus com- 
promissos e contatos. Quando os telefones celulares comegaram a ganhar popularidade no inlcio da decada de 
1990, a IBM aproveitou a oportunidade para integrar o telefone celular com o PDA, criando o “smartphone”. O 
primeiro, chamado Simon, usava uma tela sensivel ao toque como entrada e dava ao usuario todas as capacidades 
de um PDA mais telefone, jogos e e-mail. A redugao no tamanho dos componentes e no custo por fim levou ao 
grande uso de smartphones, incorporado nas populares plataformas Apple iPhone e Google Android. 

Mas mesmo os PDAs e smartphones nao sao revolucionarios de verdade. Ainda mais importantes sao 
os computadores “invislveis”, embutidos em eletrodomesticos, relogios, cartoes bancarios e diversos outros 
dispositivos (Bechini et al., 2004). Esses processadores permitem maior funcionalidade e custo mais baixo em 
uma ampla variedade de aplicagoes. Considerar esses chips uma verdadeira geragao e discutlvel (estao por al 
desde a decada de 1970, mais ou menos), mas eles estao revolucionando o modo de funcionamento de milhares 
de aparelhos e outros dispositivos. Ja comegaram a causar um importante impacto no mundo e sua influencia 
crescera rapidamente nos proximos anos. Um aspecto peculiar desses computadores embutidos e que o hard¬ 
ware e software costumam ser projetados em conjunto (Henkel et al., 2003). Voltaremos a eles mais adiante 
neste livro. 

Se entendermos a primeira geragao como maquinas a valvula (por exemplo, o ENIAC), a segunda geragao 
como maquinas a transistores (por exemplo, o IBM 7094), a terceira geragao como as primeiras maquinas de 
circuito integrado (por exemplo, o IBM 360), e a quarta geragao como computadores pessoais (por exemplo, as 
CPUs Intel), a real quinta geragao e mais uma mudanga de paradigma do que uma nova arquitetura especlfica. 
No futuro, computadores estarao por toda parte e embutidos em tudo - de fato, invislveis. Eles serao parte da 
estrutura da vida diaria, abrindo portas, acendendo luzes, fornecendo cedulas de dinheiro e milhares de outras 
coisas. Esse modelo, arquitetado pelo falecido Mark Weiser, foi denominado originalmente computagao ubl- 
qua, mas o termo computagao pervasiva tambem e usado agora com frequencia (Weiser, 2002). Ele mudara 
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o mundo com tanta profundidade quanto a Revolugao Industrial. Nao o discutiremos mais neste livro, mas se 
o leitor quiser mais informagoes sobre ele, deve consultar: Lyytinen e Yoo, 2002; Saha e Mukherjee, 2003 e 
Sakamura, 2002. 


1.3 0 zoologico dos computadores 

Na segao anterior, apresentamos uma breve historia dos sistemas de computagao. Nesta, examinaremos o 
presente e olharemos para o futuro. Embora computadores pessoais sejam os mais conhecidos, ha outros tipos 
de maquinas hoje, portanto, vale a pena dar uma pesquisada no que ha mais por al. 

1.3.1 Forcas tecnologicas e economicas 

A industria de computadores esta avangando como nenhuma outra. A forga propulsora primaria e a capaci- 
dade dos fabricantes de chips de empacotar cada vez mais transistores por chip todo ano. Mais transistores, que 
sao minusculos interruptores eletronicos, significam memorias maiores e processadores mais poderosos. Gordon 
Moore, cofundador e ex-presidente do conselho da Intel, certa vez disse, brincando, que, se a tecnologia da aviagao 
tivesse progredido tao depressa quanto a tecnologia de computadores, um aviao custaria 500 dolares e daria uma 
volta na Terra em 20 minutos com 20 litros de gasolina. Entretanto, seria do tamanho de uma caixa de sapatos. 

Especificamente, ao preparar uma palestra para um grupo do setor, Moore observou que cada nova geragao 
de chips de memoria estava sendo langada tres anos apos a anterior. Uma vez que cada geragao tinha quatro vezes 
mais memoria do que sua antecessora, ele percebeu que o numero de transistores em um chip estava crescendo 
a uma taxa constante e previu que esse crescimento continuaria pelas proximas decadas. Essa observagao ficou 
conhecida como lei de Moore. Hoje, a lei de Moore costuma ser expressa dizendo que o numero de transistores 
dobra a cada 18 meses. Note que isso equivale a um aumento de 60% no numero de transistores por ano. Os 
tamanhos dos chips de memoria e suas datas de langamento mostrados na Figura 1.8 confirmam que a lei de 
Moore esta valendo ha mais de quatro decadas. 


Figura 1.8 


A lei de Moore preve um aumento anual de 60% no numero de transistores que podem ser colocados em um chip. 
Os dados pontuais informados nesta figura sao tamanhos de memorias em bits. 



Claro que a lei de Moore nao e uma lei real, mas uma simples observagao emplrica sobre quao rapido os 
flsicos do estado solido e os engenheiros estao avangando o estado da arte e uma previsao de que eles continuarao 
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na mesma taxa no futuro. Alguns observadores do setor esperam que a lei de Moore continue valida ao menos 
por mais uma decada, talvez ate por mais tempo. Outros observadores esperam que dissipagao de energia, fuga 
de corrente e outros efeitos aparegam antes e causem serios problemas que precisam ser resolvidos (Bose, 2004; 
Kim et al., 2003). Contudo, a realidade do encolhimento de transistores e que a espessura desses dispositivos logo 
sera de apenas alguns atomos. Nesse ponto, os transistores consistirao de muito poucos atomos para que sejam 
confiaveis, ou simplesmente chegaremos a um ponto onde outras diminuigoes de tamanho exigirao blocos de 
montagem subatomicos. (Como um conselho, recomenda-se que aqueles que trabalham em uma fabrica de sillcio 
tirem folga no dia em que decidirem dividir o transistor de um atomo!) Apesar dos muitos desafios na extensao 
das tendencias da lei de Moore, existem tecnologias favoraveis no horizonte, incluindo os avangos na computagao 
quantica (Oskin et al., 2002) e nanotubos de carbono (Heinze et al., 2002), que podem criar oportunidades para 
escalar a eletronica alem dos limites do sillcio. 

A lei de Moore criou o que os economistas chamam de clrculo virtuoso. Progressos na tecnologia (transisto¬ 
res/chip) levam a melhores produtos e pregos mais baixos. Pregos mais baixos levam a novas aplicagoes (ninguem 
estava fabricando videogames para computadores quando estes custavam 10 milhoes de dolares cada, embora, 
quando o prego caiu para 120 mil dolares, os alunos do MIT aceitaram o desafio). Novas aplicagoes levam a 
novos mercados e a novas empresas, que surgem para aproveitar as vantagens desses mercados. A existencia de 
todas essas empresas leva a concorrencia que, por sua vez, cria demanda economica por melhores tecnologias, 
que substituirao as outras. Entao, o clrculo deu uma volta completa. 

Outro fator que trouxe avango tecnologico foi a primeira lei do software de Nathan (trata-se de Nathan 
Myhrvold, antigo alto executivo da Microsoft). Diz a lei: “O software e um gas. Ele se expande ate preencher o 
recipiente que o contem”. Na decada de 1980, processamento de textos era feito com programas como o troff 
(ainda usado para este livro). O troff ocupa kilobytes de memoria. Os modernos processadores de textos ocupam 
megabytes de memoria. Os futuros sem duvida exigirao gigabytes de memoria. (Por uma primeira aproximagao, 
os prefixos kilo, mega, giga e tera significam mil, milhao, bilhao e trilhao, respectivamente, mas veja a Segao 1.5 
para outros detalhes.) O software que continua a adquirir caracterlsticas (nao muito diferente dos celulares que 
estao sempre adquirindo novas aplicagoes) cria uma demanda constante por processadores mais velozes, memo- 
rias maiores e mais capacidade de E/S. 

Enquanto os ganhos em transistores por chip tinham sido vultosos ao longo dos anos, os ganhos em outras 
tecnologias nao foram menores. Por exemplo, o IBM PC/XT foi langado em 1982 com um disco rlgido de 10 mega¬ 
bytes. Trinta anos depois, discos rlgidos de 1 terabyte eram comuns nos sucessores do PC/XT. Esse avango de cinco 
ordens de grandeza em 30 anos representa um aumento de capacidade de 50% ao ano. Contudo, medir o avango em 
discos e mais enganoso, visto que ha outros parametros alem da capacidade, como taxas (de transference) de dados, 
tempo de busca e prego. Nao obstante, quase qualquer metodo de medigao mostrara que a razao prego/desempenho 
aumentou desde 1982 pelo menos 50% ao ano. Esses enormes ganhos em desempenho do disco, aliados ao fa to 
de que o volume de dolares de discos despachados do Vale do Sillcio ultrapassou o de chips de CPU, levaram Al 
Hoagland a sugerir que o nome do local estava errado: deveria ser Vale do Oxido de Ferro (ja que e esse o mate¬ 
rial de gravagao utilizado em discos). Lentamente, essa tendencia esta se deslocando em favor do sillcio, enquanto 
memorias flash baseadas em sillcio comegam a substituir os discos giratorios tradicionais em muitos sistemas. 

Outra area que teve ganhos espetaculares foi a de telecomunicagoes e redes. Em menos de duas decadas 
fomos de modems de 300 bits/s para modems analogicos de 56 mil bits/s, e dal para redes de fibra otica de 10 12 
bits/s. Os cabos de telefonia transatlanticos de fibra otica, como o TAT-12/13, custam cerca de 700 milhoes de 
dolares, duram dez anos e podem transportar 300 mil ligagoes telefonicas simultaneas, o que se traduz em menos 
do que 1 centavo de dolar para uma ligagao telefonica intercontinental de dez minutos. Sistemas opticos de 
comunicagao que funcionam a 10 12 bits/s, a distancias que passam de 100 km e sem amplificadores, mostraram 
ser viaveis. Neme preciso comentar aqui o crescimento exponencial da Internet. 

1.3.2 Tipos de computadores 

Richard Hamming, antigo pesquisador do Bell Labs, certa vez observou que uma mudanga de uma ordem de 
grandeza em quantidade causa uma mudanga na qualidade. Assim, um carro de corrida que alcanga 1.000 km/h 
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no deserto de Nevada e um tipo de maquina muito diferente de um carro normal que alcanga 100 km/h em uma 
rodovia. De modo semelhante, um arranha-ceu de 100 andares nao e apenas um ediflcio de apartamentos de 
10 andares em escala maior. E, no que se refere a computadores, nao estamos falando de fatores de 10, mas, no 
decurso de tres decadas, estamos falando de fatores na casa de milhao. 

Os ganhos concedidos pela lei de Moore podem ser usados de varios modos por vendedores de chips. Um 
deles e construir computadores cada vez mais poderosos a prego constante. Outra abordagem e construir o 
mesmo computador por uma quantia de dinheiro cada vez menor a cada ano. A industria fez ambas as coisas 
e ainda mais, o que resultou na ampla variedade de computadores disponlveis agora. Uma categorizagao muito 
aproximada dos computadores existentes hoje e dada na Figura 1.9. 


Figura 1.9 Tipos de computador disponfveis atualmente. Os precos devem ser vistos com certa condescendencia (cum grano salis). 


Tipo 

Prego (US$) 

Exemplo de aplicagao 

Computador descartavel 

0,5 

Cartoes de felicitagao 

Microcontrolador 

5 

Relogios, carros, eletrodomesticos 

Computador movel e de jogos 

50 

Videogames domesticos e smartphones 

Computador pessoal 

500 

Computador de desktop ou notebook 

Servidor 

5K 

Servidor de rede 

Mainframe 

5M 

Processamento de dados em bloco em um banco 


Nas segoes seguintes, examinaremos cada uma dessas categorias e discutiremos brevemente suas propriedades. 

1.3.3 Computadores descarlaveis 

Na extremidade inferior desse tipo encontramos um unico chip colado na parte interna de um cartao de con- 
gratulagoes, que toca “Feliz Aniversario” ou “Fa vem a noiva”, ou qualquer outra dessas musiquinhas igualmente 
horrorosas. O autor ainda nao encontrou um cartao de condolencias que tocasse uma marcha funebre, mas, como 
langou essa ideia em publico, espera encontra-lo em breve. Para quern cresceu com mainframes de muitos milhoes 
de dolares, a ideia de computadores descartaveis faz tanto sentido quanto a de um aviao descartavel. 

Contudo, os computadores descartaveis chegaram para ficar. Provavelmente, o desenvolvimento mais impor- 
tante na area dos computadores descartaveis e o chip RFID (Radio Frequency IDentification - identificagao por 
radiofrequencia). Agora e posslvel fabricar, por alguns centavos, chips RFID sem bateria com menos de 0,5 mm 
de espessura, que contem um minusculo transponder de radio e um unico numero de 128 bits embutido. Quando 
pulsados por uma antena externa, sao alimentados pelo sinal de radio de entrada por tempo suficiente para trans- 
mitir seu numero de volta a antena. Embora os chips sejam minusculos, suas implicagoes com certeza nao sao. 

Vamos comegar com uma aplicagao corriqueira: acabar com os codigos de barras de produtos. Ja foram feitos 
testes experimentais nos quais o fabricante anexou chips RFID (em vez de codigos de barras) a seus produtos 
a venda em lojas. O cliente escolhe as mercadorias, coloca-as em um carrinho de compras e apenas as leva para 
fora da loja, sem passar pela caixa registradora. Na salda da loja, um leitor munido de uma antena envia um sinal 
sobcitando que cada produto se identifique, o que cada um faz por meio de uma curta transmissao sem fio. O 
cliente tambem e identificado por um chip embutido em seu cartao bancario ou de credito. No final do mes, a loja 
envia ao cliente uma fatura, identificada por itens, referente as compras do mes. Se o cartao de banco ou cartao de 
credito RFID do cliente nao for valido, um alarme e ativado. Esse sistema nao so elimina a necessidade de caixas 
e a correspondente espera na fila, mas tambem serve como metodo antifurto, porque de nada adianta esconder 
um produto no bolso ou na sacola. 
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Uma propriedade interessante desse sistema e que, embora os codigos de barra identifiquem o tipo de produ- 
to, nao identificam o item especlfico. Com 128 bits a disposigao, os chips RFID fazem isso. Como consequencia, 
cada pacote de aspirina, por exemplo, em um supermercado, tera um codigo RFID diferente. Isso significa que, 
se um fabricante de medicamentos descobrir um defeito de fabricagao em um lote de aspirinas apos ele ter sido 
despachado, podera informar a todos os supermercados do mundo inteiro para que fagam disparar o alarme 
sempre que um cliente comprar qualquer pacote cujo numero RFID esteja na faixa afetada, mesmo que a compra 
acontega em um pals distante, meses depois. As cartelas de aspirina que nao pertengam ao lote defeituoso nao 
farao soar o alarme. 

Mas rotular pacotes de aspirina, de bolachas, de biscoitos para cachorro e so o comego. Por que parar nos bis- 
coitos para cachorro quando voce pode rotular o proprio cachorro? Donos de animais de estimagao ja estao pedindo 
aos veterinarios para implantar chips RFID em seus animais de modo que possam ser rastreados se forem roubados 
ou perdidos. Fazendeiros tambem vao querer marcar seus rebanhos. O proximo passo obvio e pais ansiosos pedirem 
a seus pediatras que implantem chips RFID em seus filhos para o caso de eles se perderem ou serem sequestrados. Ja 
que estamos nisso, por que nao fazer os hospitais identificarem todos os recem-nascidos para evitar troca de bebes? 
E os governos e a pollcia sem duvida terao muitas boas razoes para rastrear todos os cidadaos o tempo todo. Agora, 
as “implicagoes” dos chips RFID a que aludimos anteriormente estao ficando um pouco mais claras. 

Outra aplicagao (um pouco menos controvertida) de chips RFID e o rastreamento de velculos. Quando uma 
fila de automoveis com chips RFID embutidos estiver trafegando por uma rodovia e passarem por uma leitora, o 
computador ligado a leitora tera uma lista dos carros que estiveram por ah. Esse sistema facilita o rastreamento 
da localizagao de todos os velculos que passam por uma rodovia, o que ajuda fornecedores, seus clientes e as 
rodovias. Um esquema semelhante pode ser aplicado a caminhoes. No caso dos carros, a ideia ja esta sendo usada 
para cobrar pedagio por meios eletronicos (por exemplo, o sistema E-Z Pass). 

Sistemas de transporte de bagagens aereas e muitos outros sistemas de transporte de encomendas tambem 
podem usar chips RFID. Um sistema experimental testado no aeroporto de Heathrow, em Londres, permitia que 
os passageiros eliminassem a necessidade de carregar sua bagagem. As malas dos clientes que pagavam por esse 
servigo recebiam um chip RFID, eram descarregadas em separado no aeroporto e entregues diretamente nos 
hoteis dos passageiros em questao. Entre outras utilizagoes de chips RFID estao carros que chegam a segao de 
pintura da linha de montagem com a cor que devem ter ja especificada, estudo de migragao de animais, roupas 
que informam a maquina de lavar que temperatura usar e muitas mais. Alguns chips podem ser integrados com 
sensores de modo que bits de baixa ordem possam conter temperatura, pressao e umidade correntes, ou outra 
variavel ambiental. 

Chips RFID avangados tambem contem armazenamento permanente. Essa capacidade levou o Banco Central 
Europeu a tomar a decisao de incorporar chips RFID a notas de euros nos proximos anos. Os chips registrariam 
por onde as cedulas teriam passado. Isso nao apenas tornaria a falsificagao de notas de euros praticamente impos- 
slvel, mas tambem facilitaria muito o rastreamento e a posslvel invalidagao remota de resgates de sequestros, do 
produto de assaltos e de dinheiro lavado. Quando o dinheiro vivo nao for mais anonimo, o futuro procedimento 
padrao da pollcia poderia ser verificar por onde o dinheiro do suspeito passou recentemente. Quern precisa 
implantar chips em pessoas quando suas carteiras estao cheias deles? Mais uma vez, quando o publico souber o 
que os chips RFID podem fazer, e provavel que surjam discussoes publicas sobre o assunto. 

A tecnologia usada em chips RFID esta se desenvolvendo rapidamente. Os menores sao passivos (nao tern 
alimentagao interna) e podem apenas transmitir seus numeros exclusivos quando consultados. Todavia, os maio- 
res sao ativos, podem conter uma pequena bateria e um computador primitivo, e sao capazes de fazer alguns 
calculos. Os smart cards usados em transagoes financeiras estao nessa categoria. 

Chips RFID sao diferentes nao so por serem ativos ou passivos, mas tambem pela faixa de radiofrequencias 
a qual respondem. Os que funcionam em baixas frequences tern uma taxa de transference de dados limitada, 
mas podem ser captados a grandes distances por uma antena. Os que funcionam em altas frequences tern uma 
taxa de transference de dados mais aha e alcance mais reduzido. Os chips tambem diferem de outras formas 
e estao sendo aperfeigoados o tempo todo. A Internet esta repleta de informagoes sobre chips RFID, e o site 
<www.rfid.org> e um bom ponto de partida. 
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1.3.4 Microcontroladores 

No degrau seguinte da escada temos computadores que sao embutidos em dispositivos que nao sao vendidos 
como computadores. Os computadores embutidos, as vezes denominados microcontroladores, gerenciam os 
dispositivos e manipulam a interface de usuario. Sao encontrados em grande variedade de aparelhos diferentes, 
entre eles os seguintes. Alguns exemplos de cada categoria sao dados entre parenteses. 

1. Eletrodomesticos (radio-relogio, maquina de lavar, secadora, forno de micro-ondas, alarme antifurto). 

2. Aparelhos de comunicagao (telefone sem fio, telefone celular, fax, pager). 

3. Perifericos de computadores (impressora, scanner, modem, drive de CD-ROM). 

4. Equipamentos de entretenimento (VCR, DVD, aparelhos de som, MP3 player, transdutores de TV). 

5. Aparelhos de reprodugao de imagens (TV, camera digital, filmadora, lentes, fotocopiadora). 

6. Equipamentos medicos (raio-x, RMI - ressonancia magnetica, monitor cardlaco, termometro digital). 

7. Sistemas de armamentos militares (mlssil teleguiado, MBIC - mlssil ballstico intercontinental, 
torpedo). 

8. Dispositivos de vendas (maquina de venda automatica, ATM - caixa eletronico, caixa registradora). 

9. Brinquedos (bonecas que falam, consoles de jogos, carro ou barco com radiocontrole). 


Um carro de primeira linha poderia sem problema conter 50 microcontroladores que executam subsistemas, 
como freios antitravamento, injegao de combustlvel, radio e GPS. Um aviao a jato poderia com facilidade ter 200 
ou mais deles. Uma famllia poderia possuir facilmente centenas de computadores sem saber. Dentro de alguns 
anos, quase tudo o que funciona por energia eletrica ou baterias contera um microcontrolador. Os numeros de 
microcontroladores vendidos todo ano deixam longe, por ordens de grandeza, todos os outros tipos de compu¬ 
tadores, exceto os descartaveis. 

Enquanto chips RFID sao sistemas mlnimos, minicontroladores sao computadores pequenos, mas com- 
pletos. Cada microcontrolador tern um processador, memoria e capacidade de E/S. A capacidade de E/S inclui 
detectar os bo toes e interrup tores do aparelho e controlar suas luzes, monitores, sons e mo tores. Na maioria dos 
casos, o software esta incorporado no chip na forma de uma memoria somente de leitura criada quando o micro¬ 
controlador e fabricado. Os microcontroladores sao de dois tipos gerais: proposito geral e proposito especlfico. 
Os primeiros sao apenas computadores pequenos, porem comuns; os ultimos tern uma arquitetura e um conjunto 
de instrugoes dirigido para alguma aplicagao especlfica, como multimldia. Microcontroladores podem ter versoes de 
4, 8, 16 e 32 bits. 

Contudo, mesmo os microcontroladores de uso geral apresentam importantes diferengas em relagao aos PCs. 
Primeiro, ha a questao relacionada ao custo: uma empresa que compra milhoes de unidades pode basear sua esco- 
lha em diferengas de pregos de 1 centavo por unidade. Essa restrigao obriga os fabricantes de microcontroladores 
a optar por arquiteturas muito mais com base em custos de fabricagao do que em chips que custam centenas de 
dolares. Os pregos de microcontroladores variam muito dependendo de quantos bits eles tern, de quanta memo¬ 
ria tern e de que tipo e a memoria, alem de outros fatores. Para dar uma ideia, um microcontrolador de 8 bits 
comprado em volume grande o bastante pode custar apenas 10 centavos de dolar por unidade. Esse prego e o que 
possibilita inserir um computador em um radio-relogio de 9,95 dolares. 

Segundo, quase todos os microcontroladores funcionam em tempo real. Eles recebem um estlmulo e devem 
dar uma resposta instantanea. Por exemplo, quando o usuario aperta um botao, em geral uma luz se acende e nao 
deve haver nenhuma demora entre pressionar o botao e a luz se acender. A necessidade de funcionar em tempo 
real costuma causar impacto na arquitetura. 

Terceiro, os sistemas embutidos muitas vezes tern limitagoes flsicas relativas a tamanho, peso, consumo de 
bateria e outras limitagoes eletricas e mecanicas. Os microcontroladores neles utilizados devem ser projetados 
tendo essas restrigoes em mente. 
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Uma aplicagao particularmente divertida dos microcontroladores e na plataforma de controle embutida 
Arduino, que foi projetada por Massimo Banzi e David Cuartielles em Ivrea, Italia. Seu objetivo para o projeto 
foi produzir uma plataforma de computagao embutida completa, que custa menos que uma pizza grande com 
cobertura extra, tornando-o facilmente acesslvel a alunos e curiosos. (Essa foi uma tarefa diflcil, pois ha muitas 
pizzarias na Italia, de modo que as pizzas sao realmente baratas.) Eles alcagaram seu objetivo muito bem: um 
sistema Arduino completo custa menos de 20 dolares! 

O sistema Arduino e um projeto de hardware de fonte aberta, o que significa que todos os seus detalhes sao publi- 
cados e gratuitos, de modo que qualquer um pode montar (e ate mesmo vender) um sistema Arduino. Ele e baseado no 
microprocessador RISC de 8 bits Atmel AVR, e a maioria dos projetos de placa tambem inclui suporte basico para E/S. 
A placa e programada usando uma linguagem de programagao embutida, chamada Wiring, que tern embutidos todos 
os balangandas exigidos para controlar dispositivos em tempo real. O que torna a plataforma Arduino divertida de usar 
e sua comunidade de desenvolvimento grande e ativa. Existem milhares de projetos publicados usando o Arduino, 3 
variando desde um farejador de poluentes eletronico ate uma jaqueta de ciclismo com sinais de seta, um detector de 
umidade que envia e-mail quando uma planta precisa ser aguada e um aviao autonomo nao pilotado. 

1.3.5 Computadores moveis e de jogos 

Um nivel acima estao as maquinas de videogame. Sao computadores normais, com recursos graficos especiais 
e capacidade de som, mas software limitado e pouca capacidade de extensao. Comegaram como CPUs de baixo 
valor para telefones simples e jogos de agao, como pingue-pongue em aparelhos de televisao. Com o passar dos 
anos, evolulram para sistemas muito mais poderosos, rivalizando com o desempenho de computadores pessoais 
e ate ultrapassando esse desempenho em certas dimensoes. 

Para ter uma ideia do que esta dentro de um computador de jogos, considere a especificagao de tres produtos 
populares. Primeiro, o Sony PlayStation 3. Ele contem uma CPU proprietaria multicore de 3,2 GHz (denomina- 
da microprocessador Cell), que e baseada na CPU RISC PowerPC da IBM e sete Synergistic Processing Elements 
(SPEs) de 128 bits. O PlayStation 3 tambem contem 512 MB de RAM, um chip grafico Nvidia de 550 MHz fabricado 
por encomenda e um player Blu-ray. Em segundo lugar, o Microsoft Xbox 360. Ele contem uma CPU triple core 
PowerPC da IBM de 3,2 GHz com 512 MB de RAM, um chip grafico ATI de 500 MHz fabricado por encomenda, 
um DVD player e um disco rlgido. Em terceiro lugar, o Samsung Galaxy Tablet (no qual este livro foi revisado). Ele 
contem dois nucleos ARM de 1 GHz mais uma unidade de processamento grafico (integrada ao sistema-em-um- 
-chip Nvidia Tegra 2), 1 GB de RAM, duas cameras, um giroscopio de 3 eixos e armazenamento com memoria flash. 

Embora essas maquinas nao sejam tao poderosas quanto os computadores pessoais produzidos no mesmo 
perlodo de tempo, elas nao ficam muito atras e, em certos aspectos, estao a frente (por exemplo, a SPE de 128 
bits do PlayStation 3 e maior do que a CPU de qualquer PC). A principal diferenga entre essas maquinas de jogos 
e um PC nao esta tanto na CPU, mas no fa to de que maquinas de jogos sao sistemas fechados. Os usuarios nao 
podem expandir a CPU com cartoes plug-in, embora as vezes sejam fornecidas interfaces USB ou FireWire. Alem 
disso, e talvez o mais importante, maquinas de jogos sao cuidadosamente otimizadas para algumas poucas areas 
de aplicagao: jogos de alta interatividade em 3D e salda de multimldia. Todo o resto e secundario. Essas restrigoes de 
hardware e software, falta de extensibilidade, memorias pequenas, ausencia de um monitor de alta resolugao e disco 
rlgido pequeno (as vezes, ausente) possibilitam a construgao e a venda dessas maquinas por um prego mais baixo 
do que o de computadores pessoais. A despeito dessas restrigoes, sao vendidas milhoes dessas maquinas de jogos, 
e a quantidade cresce o tempo todo. 

Computadores moveis tern o requisito adicional de que utilizam o mlnimo de energia posslvel para realizar 
suas tarefas. Quanto menos energia eles usam, mais tempo ira durar sua bateria. Essa e uma tarefa de projeto 
desafiadora, pois as plataformas moveis, como tablets e smartphones, devem reduzir seu uso de energia, mas, 
ao mesmo tempo, os usuarios desses dispositivos esperam capacidades de alto desempenho, como graficos 3D, 
processamento de multimldia de alta definigao e jogos. 


3 Para descobrir mais sobre o Arduino e comegar a trabalhar com seus proprios projetos Arduino, visite <www.arduino.ee>. 
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1.3.6 Computadores pessoais 

Em seguida, chegamos aos computadores pessoais nos quais a maioria das pessoas pensa quando ouve o 
termo “computador”. O termo “computadores pessoais” abrange os modelos de desktop e notebook. Costumam 
vir equipados com gigabytes de memoria e um disco rlgido que contem terabytes de dados, um drive de CD-ROM/ 
DVD/Blu-ray, placa de som, interface de rede, monitor de alta resolugao e outros perifericos. Tern sistemas ope- 
racionais elaborados, muitas opgoes de expansao e uma imensa faixa de softwares disponlveis. 

O coragao de todo computador pessoal e uma placa de circuito impresso que esta no fundo ou na lateral da 
caixa. Em geral, essa placa contem a CPU, memoria, varios dispositivos de E/S (como um chip de som e possi- 
velmente um modem), bem como interfaces para teclado, mouse, disco, rede etc., e alguns encaixes (slots) de 
expansao. A Figura 1.10 mostra a foto de uma dessas placas de circuito. 


Figura 1.10 A placa de circuito impresso esta no coracao de cada computador pessoal. Essa e uma fotografia da placa Intel DQ67SW. 
Direitos de reproducao da Intel Corporation, 2011, reproducao permitida. 





Notebooks sao basicamente PCs em uma embalagem menor e utilizam os mesmos componentes de 
hardware, mas em tamanhos menores. Tambem executam os mesmos softwares que os PCs de desktop. Uma 
vez que grande parte dos leitores deve conhecer computadores pessoais e notebooks muito bem, nao sera 
preciso fazer uma apresentagao introdutoria mais detalhada. 

Outra variante desse tema e o computador tablet, como o popular iPad. Esses dispositivos sao apenas PCs 
normais em um pacote menor, com um disco em estado solido em vez de um disco rlgido giratorio, uma tela 
sensivel ao toque e uma CPU diferente do x86. Mas, do ponto de vista arquitetonico, os tablets sao apenas note¬ 
books com tamanho e forma diferentes. 
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1.3.7 Servidores 

Computadores pessoais reforgados ou estagoes de trabalho sao muito usados como servidores de rede, tanto 
em redes locais (em geral, dentro de uma unica empresa) quanto na Internet. Os servidores vem em configura- 
goes com um unico processador com multiplos processadores, tern gigabytes de memoria, centenas de gigabytes 
de espago de disco rlgido e capacidade para trabalho em rede de alta velocidade. Alguns deles podem manipular 
milhares de transagoes por segundo. 

Em termosde arquitetura, contudo, um servidor com um unico processador na verdade nao e muito dife- 
rente de um computador pessoal com um unico processador. Apenas e mais rapido, maior e tern mais espago de 
disco, e possivelmente conexao de rede mais rapida. Servidores executam os mesmos sistemas operacionais que 
os computadores pessoais, normalmente alguma variagao de Unix ou Windows. 

• Clusters 

Gragas as melhorias quase contlnuas na relagao prego/desempenho dos servidores, nos ultimos anos os 
projetistas de sistemas comegaram a conectar grandes numeros deles para formar clusters. Eles consistem em 
sistemas padrao do tipo servidor, conectados por redes de gigabits/s e executam software especial que permite 
a todas as maquinas trabalharem juntas em um unico problema, muitas vezes cientlfico ou de engenharia. 
Normalmente, sao o que se costuma denominar COTS (Commodity Off The Shelf - mercadoria de prateleira), 
computadores que qualquer um pode comprar de algum vendedor de PCs comuns. O principal acrescimo e 
a capacidade de trabalho em rede de alta velocidade, mas as vezes isso tambem e uma placa de rede padrao 
encontrada no mercado. 

Grandes clusters costumam ser acomodados em salas de usuario especial ou predios denominados data centers. 
A escala desses data centers e muito grande, e vai desde um punhado de maquinas ate milhares delas. Em geral, 
o fa tor limitador e a verba disponlvel. Devido ao baixo prego por componente, agora departamentos individuals 
podem ter essas maquinas para uso interno. Muitas pessoas utilizam os termos “ cluster ” e “data center ” para indi¬ 
car a mesma coisa, embora, tecnicamente, o primeiro seja a colegao de servidores e o outro seja a sala ou predio 
que os abriga. 

Um uso comum para um cluster e como um servidor web. Quando um site espera milhares de solicitagoes 
por segundo para suas paginas, a solugao mais economica normalmente e construir um data center com centenas 
ou mesmo milhares de servidores. As solicitagoes que chegam sao entao espalhadas entre os servidores, para per- 
mitir que sejam processadas em paralelo. Por exemplo, a Google tern data centers por todo o mundo, para atender 
as solicitagoes de busca. O maior deles, em The Dalles, Oregon, e uma instalagao com o tamanho de dois campos 
de futebol americano. O local foi escolhido porque os data centers exigem grandes quantidades de energia eletrica, 
e The Dalles e o local de uma represa hidreletrica de 2 GW no rio Columbia, que pode fornecer essa energia. No 
total, considera-se que a Google tenha mais de um milhao de servidores em seus data centers. 

O negocio de computagao e muito dinamico, e as coisas mudam o tempo todo. Na decada de 1960, a com¬ 
putagao era dominada por computadores mainframe gigantes (veja mais adiante), custando dezenas de milhoes de 
dolares, aos quais os usuarios se conectavam usando terminals remotos. Esse era um modelo bastante centraliza- 
do. Depois, na decada de 1980, os computadores pessoais entraram em cena, milhoes de pessoas os compraram, 
e a computagao tornou-se descentralizada. 

Com o advento dos data centers, estamos comegando a reviver o passado na forma de computagao em 
nuvens (cloud computing ), que e a computagao do mainframe versao 2.0. A ideia aqui e que todos terao um ou 
mais dispositivos simples, incluindo PCs, notebooks, tablets e smartphones, que sao basicamente interfaces do 
usuario para a nuvem (ou seja, o data center ), onde todas as fotos, videos, musicas e outros dados do usuario 
sao armazenados. Nesse modelo, os dados sao acesslveis a partir de diferentes dispositivos em qualquer lugar e a 
qualquer hora, sem que o usuario precise saber onde estao. Aqui, o data center cheio de servidores substituiu o 
unico grande computador centralizado, mas o paradigma retornou ao que era antes: os usuarios tern terminals e 
dados simples, e o poder da computagao esta centralizado em algum outro lugar. 
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Quem sabe por quanto tempo esse modelo sera popular? Poderia acontecer simplesmente que, em dez anos, 
tantas pessoas tenham armazenado tantas musicas, fotos e videos na nuvem que a infraestrutura (sem fios) para 
a comunicagao com tudo isso se torne um gargalo. Isso poderia levar a uma nova revolugao: computadores pes- 
soais, onde as pessoas armazenam seus proprios dados em suas proprias maquinas localmente, evitando assim o 
engarrafamento no ar. 

A mensagem “leve para casa” aqui e que o modelo de computagao popular em determinado momento depen- 
de muito da tecnologia, da economia e das aplicagoes disponlveis, e pode mudar quando esses fatores mudarem. 

1.3.8 Mainframes 

Agora chegamos aos mainframes: computadores que ocupam uma sala e nos fazem voltar a decada de 1960. 
Essas maquinas sao as descendentes diretas dos mainframes IBM 360 adquiridos ha decadas. Em sua maior parte, 
nao sao muito mais rapidas do que servidores de grande potencia, mas sempre tern mais capacidade de E/S e cos- 
tumam ser equipadas com vastas colegoes de discos que contem milhares de gigabytes de dados. Embora sejam 
caras, e comum serem mantidas em funcionamento por causa do enorme investimento em software, dados, pro- 
cedimentos operacionais e pessoal que representam. Muitas empresas acham mais barato pagar alguns milhoes 
de dolares de vez em quando na compra de uma nova do que sequer pensar no esforgo exigido para reprogramar 
todas as suas aplicagoes para maquinas menores. 

E essa classe de computadores que levou ao infame problema do “Ano 2000”, causado pelos programadores 
(principalmente COBOL) nas decadas de 1960 e 1970 porque representavam o ano com dois algarismos (dlgitos) 
decimais para economizar memoria. Eles nunca imaginaram que seus softwares durariam tres ou quatro decadas. 
Embora o desastre previsto nao tenha ocorrido gragas ao imenso trabalho realizado para solucionar o problema, 
muitas empresas repetiram o mesmo erro quando acrescentaram mais dois dlgitos ao ano. O autor preve aqui 
o final da civilizagao que conhecemos a meia-noite de 31 de dezembro de 9999, quando 8 mil anos de velhos 
programas COBOL falharem simultaneamente. 

Alem de sua utilizagao para executar software herdado de 40 anos de existencia, nos ultimos anos a Internet 
deu um novo folego a esses mainframes. Ela achou um novo nicho, como poderosos servidores de Internet, por 
exemplo, porque podem manipular quantidades macigas de transagoes de e-commerce por segundo, em particular 
em empresas que exigem imensas bases de dados. 

Ate ha pouco tempo havia outra categoria de computadores ainda mais poderosa que os mainframes: os super- 
computadores. Eles tinham CPUs incrivelmente velozes, muitos gigabytes de memoria principal e discos rlgidos e 
redes muito velozes. Eram usados para calculos cientlficos e de engenharia macigos, como a simulagao de galaxias 
em colisao, slntese de novos medicamentos ou modelagem do fluxo de ar em torno da asa de um aviao. Porem, 
nos ultimos anos, data centers construldos por componentes comerciais passaram a oferecer todo esse poder de 
computagao com pregos muito mais baixos, e os verdadeiros supercomputadores agora sao uma raga em extingao. 


1.4 Exemplos de familias de computadores 

Neste livro, vamos analisar tres arquiteturas de conjunto de instrugoes (ISAs) populares: x86, ARM e AVR. 
A arquitetura x86 e encontrada em quase todos os sistemas de computadores pessoais (incluindo PCs Windows 
e Linux e Macs) e servidores. Os computadores pessoais sao de inter esse porque todo lei tor sem duvida ja usou 
um. Os servidores sao de interesse porque eles rodam todos os servigos na Internet. A arquitetura ARM domina 
o mercado movel. Por exemplo, a maioria dos smartphones e computadores tablet e baseada em processadores 
ARM. Por fim, a arquitetura AVR e empregada em microcontroladores de muito baixo custo, encontrados em 
muitas aplicagoes de computagao embutidas. Computadores embutidos sao invislveis aos seus usuarios, mas 
controlam carros, televisoes, fornos de micro-ondas, maquinas de lavar e praticamente cada dispositivo eletrico 
que custa mais de 50 dolares. Nesta segao, faremos uma breve introdugao as tres arquiteturas de conjunto de 
instrugoes que serao usadas como exemplos no restante do livro. 
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1.4.1 Introducao a arquitetura x86 

Em 1968, Robert Noyce, inventor do circuito integrado de sillcio, Gordon Moore, aquele famoso pela lei de 
Moore, e Arthur Rock, um capitalista de risco de Sao Francisco, formaram a Intel Corporation para fabricar chips 
de memoria. Em seu primeiro ano de operagao, a Intel vendeu apenas 3 mil dolares de chips, mas desde entao o 
negocio melhorou (a Intel agora e o maior fabricante de chips de CPU do mundo). 

No final da decada de 1960, as calculadoras eram grandes maquinas eletromecanicas do tamanho de 
uma moderna impressora a laser e pesavam 20 kg. Em setembro de 1969, uma empresa japonesa, a Busicom, 
consultou a Intel sobre um pedido de fabricagao de 12 chips sob encomenda para uma calculadora eletronica 
proposta. Ted Hoff, o engenheiro da Intel designado para esse projeto, analisou o piano e percebeu que podia 
colocar uma CPU de uso geral de 4 bits em um unico chip, que faria a mesma coisa e seria mais simples e tam- 
bem mais barata. Assim, nascia, em 1970, a primeira CPU de um so chip com 2.300 transistores, denominada 
4004 (Faggin et al., 1996). 

Vale a pena observar que nem a Intel nem a Busicom tinham a minima ideia do que acabavam de fazer. 
Quando a Intel decidiu que poderia valer a pena tentar usar a 4004 em outros projetos, propos a Busicom comprar 
de volta os direitos ao novo chip devolvendo os 60 mil dolares que aquela empresa pagara a Intel para desenvolve- 
-lo. A oferta foi aceita de pronto e entao a Intel comegou a trabalhar em uma versao de 8 bits do chip, o 8008, 
langado em 1972. A famllia Intel, que comegou com o 4004 e o 8008, e mostrada na Figura 1.11, com a data de 
introdugao, taxa de clock, quantidade de transistores e memoria. 


Figura 1.11 


Principals membros da famllia de CPUs da Intel. As velocidades de clock sao medidas em MHz (megahertz) em que 1 MHz e 
1 milhao de ciclos/s. 



Como a empresa nao esperava muita demanda pelo 8008, montou uma linha de produgao de baixo volume. 
Para o espanto de todos, houve um enorme interesse, portanto, a Intel passou a projetar um novo chip de CPU 
que ultrapassava o limite de 16 kilobytes de memoria do 8008 (imposto pelo numero de pinos no chip). Esse 
projeto resultou no 8080, uma CPU pequena, de uso geral, langada em 1974. Muito parecido com o PDP-8, esse 
produto tomou o setor de assalto e se tornou de imediato um item de mercado de massa. So que, em vez de vender 
milhares, como a DEC tinha vendido, a Intel vendeu milhoes. 
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Em 1978, veio o 8086, uma genulna CPU de 16 bits em um unico chip. O 8086 foi projetado para ser seme- 
lhante ao 8080, mas nao era totalmente compatlvel com o 8080. O 8086 foi seguido pelo 8088, que tinha a mesma 
arquitetura do 8086 e executava os mesmos programas, mas tinha um barramento de 8 bits, em vez de 16 bits, o 
que o tornava mais lento e mais barato do que o 8086. Quando a IBM escolheu o 8088 como a CPU do IBM PC 
original, esse chip rapidamente se tornou o padrao da industria dos computadores pessoais. 

Nem o 8088 nem o 8086 podiam enderegar mais do que 1 megabyte de memoria. No inlcio da decada de 
1980, isso se tornou um problema cada vez mais serio, por isso a Intel projetou o 80286, uma versao do 8086 
compatlvel com os chips anteriores. O conjunto de instrugoes basicas era em essencia o mesmo do 8086 e do 
8088, mas a organizagao da memoria era bem diferentee um pouco desajeitada por causa do requisito de compa- 
tibilidade com os chips mais antigos. O 80286 foi usado no IBM PC/AT e nos modelos de faixa media PS/2. Assim 
como o 8088, ele foi um grande sucesso, em grande parte, porque todos o consideravam um 8088 mais veloz. 

O proximo passo logico seria uma verdadeira CPU de 32 bits em um chip, o 80386, langado em 1985. Assim 
como o 80286, esse chip era mais ou menos compatlvel com tudo que havia antes, ate o 8080. Sendo compatlvel 
com a famllia anterior, era importante para pessoas que queriam rodar velhos programas, mas um aborrecimento 
para quern preferia uma arquitetura simples, limpa e moderna que nao fosse prejudicada pelos erros e pela tec- 
nologia do passado. 

Quatro anos mais tarde, foi langado o 80486 que, em essencia, era uma versao mais veloz do 80386, que 
tambem tinha uma unidade de ponto flutuante e 8 kilobytes de memoria cache no chip. A memoria cache e usada 
para conter as palavras de memoria mais usadas, dentro ou proximas da CPU, de modo a evitar o acesso (lento) 
a memoria principal. O 80486 tambem tinha suporte de multiprocessador embutido, o que permitia que os fabri¬ 
cates construlssem sistemas com varias CPUs que compartilhavam uma memoria em comum. 

Nesse ponto, a Intel descobriu do modo mais diflcil (perdendo uma agao judicial de violagao de marca regis- 
trada) que numeros (como 80486) nao podem ser considerados marca registrada, portanto, a geragao seguinte 
ganhou um nome: Pentium (da palavra grega para cinco, Jtevxe). Diferente do 80486, que tinha um so pipeline 
interno, o Pentium tinha dois, o que ajudava a torna-lo duas vezes mais rapido (discutiremos pipelines em deta- 
lhes no Capltulo 2). 

Mais tarde, a Intel acrescentou a linha de produgao as instrugoes especiais MMX (MultiMedia extension). 
O proposito dessas instrugoes era acelerar os calculos exigidos para processar audio e video, o que tornou desne- 
cessaria a adigao de coprocessadores especiais de multimldia. 

Quando a proxima geragao apareceu, quern estava esperando por um Sexium (sex e “seis” em latim) ficou 
desapontado. O nome Pentium agora era tao conhecido que o pessoal de marketing resolveu conserva-lo, e o novo 
chip foi denominado Pentium Pro. A despeito da pequena mudanga de nome em relagao a seu antecessor, esse 
processador representou uma grande ruptura com o passado. Em vez de ter dois ou mais pipelines , o Pentium Pro 
tinha uma organizagao interna muito diferente e podia executar ate cinco instrugoes por vez. 

Outra inovagao encontrada no Pentium Pro era uma memoria cache de dois nlveis. O chip do processador 
em si tinha 8 kilobytes de memoria rapida para conter instrugoes mais usadas e mais 8 kilobytes de memoria 
rapida para conter dados mais usados. Na mesma cavidade dentro do pacote Pentium Pro (mas nao no chip em 
si) havia uma segunda memoria cache de 256 kilobytes. 

Embora o Pentium Pro tivesse uma grande cache, faltavam as instrugoes MMX (porque a Intel nao conse- 
guiu fabricar um chip tao grande com desempenho aceitavel). Quando a tecnologia melhorou o bastante para 
conseguir colocar as instrugoes MMX e a cache no mesmo chip, o produto combinado foi langado como Pentium 
II. Logo apos, foram adicionadas ainda mais instrugoes de multimldia, denominadas SSE (Streaming SIMD 
Extensions), para melhorar os graficos em 3D (Raman et al., 2000). O novo chip foi denominado Pentium III, 
mas internamente era, em essencia, um Pentium II. 

O proximo Pentium, langado em novembro de 2000, era baseado em uma arquitetura interna diferente, mas 
tinha o mesmo conjunto de instrugoes dos anteriores. Para celebrar esse even to, a Intel mudou de algarismos 
romanos para algarismos arabicos e o denominou Pentium 4. Como sempre, o Pentium 4 era mais rapido do 
que todos os seus antecessores. A versao de 3,06 GHz tambem introduziu uma nova e intrigante caracterlstica, 
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o hyperthreading. Essa caracterlstica permitia que os programas distribulssem seu trabalho para dois threads de 
controle que o Pentium 4 podia executar em paralelo, acelerando a execugao. Alem disso, foi acrescentado um 
novo lote de instrugoes SSE para acelerar ainda mais o processamento de audio e video. 

Em 2006, a Intel mudou o nome da marca Pentium para Core e langou um chip dual core , o Core 2 duo. 
Quando a Intel decidiu que queria uma versao mais barata em um unico nucleo do chip, ela simplesmente ven- 
deu os Core 2 duos com um nucleo desabilitado, pois desperdigar um unico sillcio em cada chip fabricado, por 
fim, era mais barato do que incorrer na enorme despesa de projetar e testar um novo chip do zero. A serie Core 
continuou a evoluir, com o i3, i5 e i7 sendo variantes populares para computadores com desempenho baixo, 
medio e alto. Sem duvida, havera mais variantes. Uma foto do i7 aparece na Figura 1.12. Na realidade, existem 
oito nucleos nela, mas, exceto na versao Xeon, somente seis estao habilitados. Essa tecnica significa que um chip 
com um ou dois nucleos com defeito ainda sera vendido, desabilitando o(s) defeituoso(s). Cada nucleo tern suas 
proprias caches de nivel 1 e 2, mas ha tambem uma cache de nlvel 3 (L3) compartilhada, usada por todos os 
nucleos. Discutiremos as caches com mais detalhes em outro ponto deste livro. 


Figura 1.12 


0 chip Intel Core i7-3960X. 0 substrato tem 21 x 21 mm e 2,27 bilhoes de transistores. Direitos da fotografia da Intel 
Corporation, 2011, reproduce permitida. 



Alem das CPUs de desktop de uso geral discutidas ate aqui, a Intel fabricou variantes de alguns dos chips 
Pentium para mercados especiais. No inlcio de 1998, introduziu uma nova linha de produtos chamada Celeron, 
que era uma versao de baixo custo e baixo desempenho do Pentium 2, voltada para PCs inferiores. Uma vez que 
o Celeron tem a mesma arquitetura Pentium 2, nao o discutiremos mais neste livro. Em junho de 1998, langou 
uma versao especial do Pentium 2 para a faixa mais alta do mercado. Esse processador, denominado Xeon, tinha uma 
cache maior, barramento mais rapido e melhor suporte de microprocessador, mas, fora isso, era um Pentium 2 
normal, portanto, tampouco vamos discuti-lo em separado. O Pentium III tambem teve uma versao Xeon, assim 
como os chips mais recentes. Nestes, um recurso do Xeon e a maior quantidade de nucleos. 

Em 2003, a Intel langou o Pentium M (de Mobile), um chip projetado para notebooks. Esse chip era parte da 
arquitetura Centrino, cujos objetivos eram menor consumo de energia para maior tempo de vida util das baterias, 
computadores menores e mais leves, e capacidade de rede sem fio embutida usando o padrao IEEE 802.11 (WiFi). 
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O Pentium M consumia muito menos potencia e era muito menor que o Pentium 4, duas caracterlsticas que logo 
lhe permitiriam (e aos seus sucessores) substituir a microarquitetura do Pentium 4 em produtos futuros da Intel. 

Todos os chips da Intel sao compatlveis com seus antecessores ate os antigos 8086. Em outras palavras, um 
Pentium 4 pode executar antigos programas 8086 sem modificagao. A Intel sempre considerou essa compatibili- 
dade como um requisito de projeto, para permitir que seus usuarios nao percam seus investimentos em software. 
Claro que o Pentium 4 e quatro ordens de grandeza mais complexo do que o 8086, por isso pode fazer algumas 
coisas que o 8086 nao podia. Essas extensoes escalonadas resultaram em uma arquitetura que nao e tao elegante 
quanto poderia ter sido se alguem tivesse dado aos arquitetos do Pentium 4 42 milhoes de transistores e instru- 
goes para comegar tudo de novo. 

E interessante notar que, embora a lei de Moore venha ha tempos sendo associada com o numero de bits em 
uma memoria, ela se aplica igualmente bem a chips de CPU. Plotando o numero de transistores dados na Figura 
1.8 contra as datas de langamento de cada chip em uma escala semilogarltmica, vemos que a lei de Moore tambem 
vale nesse caso. Esse grafico e apresentado na Figura 1.13. 


Figura 1.13 


Lei de Moore para chips de CPU (Intel). 



Embora a lei de Moore provavelmente continue valida por alguns anos ainda, outro problema esta come- 
gando a langar uma sombra sobre ela: a dissipagao de calor. Transistores menores possibilitam execugao em fre¬ 
quences de clock mais altas, o que requer a utilizagao de uma tensao mais aha. O consumo de energia e o calor 
dissipado sao proporcionais ao quadrado da tensao eletrica, portanto, execugao mais rapida significa ter mais 
calor para se livrar. Em 3,6 GHz, o Pentium 4 consome 115 watts de potencia, o que significa que ele fica quase 
tao quente quanto uma lampada de 100 watts. Acelerar o clock agrava o problema. 

Em novembro de 2004, a Intel cancelou o Pentium 4 de 4 GHz por causa de problemas de dissipagao de 
calor. Grandes ventiladores podem ajudar, mas o barulho que fazem nao agrada aos usuarios, e a refrigeragao 
com agua, embora usada em grandes mainframes, nao e uma opgao viavel para equipamentos de desktop (menos 
ainda para notebooks). Como consequencia, a antes implacavel marcha do clock pode ter terminado, ao menos ate 
que os engenheiros da Intel descubram como se livrar com eficiencia de todo o calor gerado. Em vez disso, os 
pianos atuais da Intel sao colocar duas ou mais CPUs em um mesmo chip, junto com uma grande cache compar- 
tilhada. Por causa do modo como o consumo de energia esta relacionado com a tensao eletrica e a velocidade de 
clock, duas CPUs em um chip consomem muito menos energia do que uma CPU a uma velocidade duas vezes 
maior. Como consequencia, o ganho oferecido pela lei de Moore pode ser ainda mais explorado no futuro para 
incluir mais nucleos e caches cada vez maiores embutidas em um chip, em vez de velocidades de clock cada vez 
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mais altas. Tirar proveito desses multiprocessadores impoe grandes desafios aos programadores, pois, diferente 
das sofisticadas microarquiteturas uniprocessador, os multiprocessadores exigem que o programador orquestre 
explicitamente a execugao paralela, usando threads , semaforos, memoria compartilhada e outras tecnologias que 
causam bugs e dores de cabega. 

1.4.2 Introducao a arquitetura ARM 

No inlcio da decada de 1980, a empresa Acorn Computer, sediada na Gra-Bretanha, apos o sucesso de seu 
computador pessoal de 8 bits BBC Micro, comegou a trabalhar em uma segunda maquina com a esperanga de 
competir com o recem-langado IBM PC. O BBC Micro era baseado no processador de 8 bits 6502, e Steve Furber 
e seus colegas da Acorn acharam que o 6502 nao tinha forga para competir com o processador de 16 bits 8086 do 
IBM PC. Eles comegaram a examinar as opgoes no mercado, e decidiram que estavam muito limitados. 

Inspirados pelo projeto RISC de Berkeley, em que uma pequena equipe projetou um processador incrivel- 
mente rapido (que, por fim, levou a arquitetura SPARC), decidiram montar sua propria CPU para o projeto. 
Eles chamaram seu projeto de Acorn RISC Machine (ou ARM, que mais tarde seria rebatizado para a maquina 
Advanced RISC, quando o ARM por fim se separou da Acorn). O projeto foi concluldo em 1985. Ele inclula ins¬ 
trugoes e dados de 32 bits, um espago de enderegos de 26 bits, e foi fabricado pela VLSI Technology. 

A primeira arquitetura ARM (denominada ARM2) apareceu no computador pessoal Acorn Archimedes. O 
Archimedes era uma maquina muito rapida e barata para a sua epoca, rodando em ate 2 MIPS (milhoes de instru¬ 
goes por segundo) e custando apenas 899 libras esterlinas no langamento. A maquina tornou-se muito popular 
na Gra-Bretanha, Irlanda, Australia e Nova Zelandia, em especial nas escolas. 

Com base no sucesso do Archimedes, a Apple fez contato com a Acorn para desenvolver um processa¬ 
dor ARM para seu proximo projeto Apple Newton, o primeiro computador palmtop. Para focar melhor no 
projeto, a equipe de arquitetura ARM saiu da Acorn para criar uma nova empresa, chamada Advanced RISC 
Machines (ARM). Seu novo processador foi chamado de ARM 610, que controlou o Apple Newton quando 
ele foi langado em 1993. Diferente do projeto ARM original, esse novo processador ARM incorporava uma 
cache de 4 KB, o que melhorou significativamente o desempenho do projeto. Embora o Apple Newton nao 
tenha sido um grande sucesso, o ARM 610 viu outras aplicagoes bem-sucedidas, incluindo o computador 
RISC PC da Acorn. 

Em meados dos anos 1990, a ARM colaborou com a Digital Equipment Corporation para desenvolver uma 
versao de aha velocidade e baixa potencia do ARM, voltada para aplicagoes moveis com escassez de energia, como 
PDAs. Eles produziram o projeto StrongARM, que desde o seu langamento causou um rebuligo no setor devido a 
sua aha velocidade (233 MHz) e demandas de potencia ultrabaixa (1 watt). Ele ganhou eficiencia por meio de um 
projeto simples e limpo, que inclula duas caches de 16 KB para instrugoes e dados. O StrongARM e seus suces- 
sores na DEC foram moderadamente bem-sucedidos no mercado, fazendo parte de diversos PDAs, transdutores 
de TV, dispositivos de mldia e roteadores. 

Talvez a mais veneravel das arquiteturas ARM seja o projeto ARM7, langado inicialmente pela ARM em 1994 
e ainda bastante utilizado hoje em dia. O projeto inclula caches separados para instrugao e dados, e tambem 
incorporava o conjunto de instrugoes de 16 bits Thumb. O conjunto de instrugoes Thumb e uma versao reduzida 
do conjunto de instrugoes completo de 32 bits do ARM, permitindo que os programadores codifiquem muitas 
das operagoes mais comuns em instrugoes menores de 16 bits, reduzindo bastante a quantidade de memoria de 
programa necessaria. O processador funcionava bem para uma grande variedade de aplicagoes embutidas, de nlvel 
inferior a medio, como torradeiras, controle de motor e ate mesmo o console de jogos portatil Gameboy Advance 
da Nintendo. 

Diferente de muitas empresas de computador, a ARM nao fabrica qualquer microprocessador. Em vez disso, 
ela cria projetos e ferramentas e bibliotecas para o desenvolvedor baseadas em ARM, licenciando-as para proje- 
tistas de sistemas e fabricantes de chips. Por exemplo, a CPU usada no computador tablet Samsung Galaxy Tab 
baseado no Android e um processador baseado no ARM. O Galaxy Tab contem o processador de sistema-em-um- 
-chip Tegra 2, que inclui dois processadores ARM Cortex-A9 e uma unidade de processamento grafico Nvidia 
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GeForce. Os nucleos do Tegra 2 foram projetados pela ARM, integrados a um projeto de sistema-em-um-chip 
pela Nvidia e fabricados pela Taiwan Semiconductor Manufacturing Company (TSMC). Essa e uma colaboragao 
impressionante por empresas em diferentes palses, na qual todas elas agregaram valor ao projeto final. 

A Figura 1.14 mostra uma foto do substrato do sistema-em-um-chip Tegra 2 da Nvidia. O projeto contem 
tres processadores ARM: dois nucleos ARM Cortex-A9 de 1,2 GHz mais um nucleo ARM7. Os nucleos Cortex-A9 
sao nucleos fora de ordem de emissao dual e uma cache L2 de 1 MB, com suporte para multiprocessamento de 
memoria compartilhada. (Todos esses termos serao explicados em outros capltulos. Por enquanto, basta saber 
que esses recursos tornam o projeto muito veloz!) O nucleo ARM7 e um nucleo ARM mais antigo e menor, 
usado para configuragao do sistema e gerenciamento de energia. O nucleo grafico e um projeto com uma unidade 
de processamento grafico (GPU) GeForce de 333 MHz, otimizado para operagao com baixa potencia. Tambem 
incluldos no Tegra 2 estao um codificador/decodificador de video, um processador de audio e uma interface de 
salda de video HDMI. 


Figura 1.14 


0 sistema Nvidia Tegra 2 em um chip. Direitos de reproducao da Nvidia Corporation, 2011, reproducao permitida. 



A arquitetura ARM teve grande sucesso nos mercados de dispositivos de baixa potencia, moveis e embutidos. 
Em janeiro de 2011, a ARM anunciou que tinha vendido 15 bilhoes de processadores desde o seu langamento, e 
indicou que as vendas estavam continuando a crescer. Embora apropriada para mercados de classe mais baixa, 
a arquitetura ARM tern a capacidade de computagao para funcionar em qualquer mercado, e existem indicios de 
que podera estar expandindo seus horizontes. Por exemplo, em outubro de 2011, foi anunciado um ARM de 64 
bits. Tambem em janeiro de 2011, a Nvidia anunciou o “Projeto Denver”, um sistema-em-um-chip baseado em 
ARM, sendo desenvolvido para o mercado de servidores e outros. O projeto ira incorporar varios processadores 
ARM de 64 bits e mais uma GPU de uso geral (GPGPU). Os aspectos de baixa potencia do projeto ajudarao a 
reduzir os requisitos de resfriamento de server farms e data centers. 
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1.4.3 Introducao a arquitetura AVR 

Nosso terceiro exemplo e muito diferente do primeiro (a arquitetura x86, usada em computadores pessoais 
e servidores) e do segundo (a arquitetura ARM, usada em PDAs e smartphones). E a arquitetura AVR, usada 
em sistemas embutidos de muito baixo nivel. A historia do AVR comega em 1996, no Norwegian Institute of 
Technology, onde os estudantes Alf-Egil Bogen e Vegard Wollan projetaram uma CPU RISC de 8 bits chamada 
AVR. Esse nome supostamente significa “(A)If and (V)egard’s (R)ISC processor” (processador RISC de Alf e 
Vegard). Logo depois que o projeto foi concluldo, a Atmel o comprou e langou a Atmel Norway, onde os dois 
arquitetos continuaram a refinar o projeto do processador AVR. A Atmel langou seu primeiro microcontrolador 
AVR, o AT90S1200, em 1997. Para facilitar sua adogao pelos projetistas de sistemas, eles executaram a pinagem 
para que fosse identica a do Intel 8051, que era um dos microcontroladores mais populares da epoca. Hoje, ha 
muito interesse na arquitetura AVR porque ela esta no centro da plataforma muito popular de controle embutido 
Arduino, de fonte aberta. 

A arquitetura AVR e reabzada em tres classes de microcontroladores, listados na Figura 1.15. A classe mais 
baixa, a tinyAVR, foi projetada para aplicagoes mais restritas quanto a superflcie, potencia e custo. Ela inclui uma 
CPU de 8 bits, suporte digital basico para E/S e suporte para entrada analogica (por exemplo, na leitura de valores 
de temperatura de um termometro). O tinyAVR e tao pequeno que seus pinos trabalham com dupla fungao, de 
modo que podem ser reprogramados em tempo de execugao para qualquer uma das fungoes digitais ou analogicas 
admitidas pelo microcontrolador. O megaAVR, que e encontrado no popular sistema embutido de fonte aberta 
Arduino, tambem acrescenta suporte para E/S serial, clocks internos e saldas analogicas programaveis. O topo de 
hnha nessa ponta inferior e o microcontrolador AVR XMEGA, que tambem incorpora um acelerador para opera- 
goes criptograficas e mais suporte interno para interfaces USB. 


Figura 1.15 Classes de microcontrolador na familia AVR. 


Chip 

Flash 

EEPROM 

RAM 

Pinos 

Caracterfsticas 

tinyAVR 

0,5-16 KB 

0-512 B 

32-512 B 

6-32 

Pequeno, E/S digital, entrada analogica 

megaAVR 

8-256 KB 

0,5-4 KB 

0,25-8 KB 

28-100 

Muitos perifericos, safda analogica 

AVR XMEGA 

16-256 KB 

1-4 KB 

2-16 KB 

44-100 

Aceleragao criptografica, E/S USB 


Junto com diversos perifericos adicionais, cada classe de processador AVR inclui alguns recursos de memoria 
adicionais. Os microcontroladores possuem em geral tres tipos de memoria na placa: flash, EEPROM e RAM. A 
memoria flash e programavel usando uma interface externa e altas voltagens, e e nela que sao armazenados codigo 
de programa e dados. A RAM flash e nao volatil, de modo que, mesmo que o sistema perca a energia, a memoria 
flash se lembrara do que foi gravado nela. Assim como a flash, a EEPROM tambem e nao volatil, mas, diferente 
da RAM flash, ela pode ser mudada pelo programa enquanto esta rodando. Esse e o armazenamento em que um 
sistema embutido manteria informagoes de configuragao do usuario, como se o seu relogio mostra as horas em 
forma to de 12 ou 24 horas. Por fim, a RAM e onde as variaveis do programa serao armazenadas enquanto o pro¬ 
grama roda. Essa memoria e volatil, de modo que qualquer valor armazenado aqui sera perdido quando o sistema 
estiver sem energia. Estudamos os tipos de RAM volatil e nao volatil com detalhes no Capltulo 2. 

A receita para o sucesso no negocio de microcontroladores e colocar no chip tudo o que ele possivelmente 
precisara (e a pia da cozinha tambem, se puder ser reduzida para um millmetro quadrado) e depois coloca-lo em 
um pacote barato e pequeno, com muito poucos pinos. Integrando muitas caracterlsticas no microcontrolador, 
ele pode funcionar para muitas aplicagoes, e tornando-o barato e pequeno, ele pode caber em muitos tamanhos. 
Para entender melhor quantas coisas podem caber em um microcontrolador moderno, vejamos os perifericos 
incluldos no Atmel ATmegal68 AVR: 
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1. Tres temporizadores (dois temporizadores de 8 bits e um de 16 bits). 

2. Clock de tempo real com oscilador. 

3. Seis canais por modulagao de largura de pulso usados, por exemplo, para controlar a intensidade da luz 
ou a velocidade do motor. 

4. Oito canais de conversao analogico-digital usados para ler nlveis de tensao eletrica. 

5. Receptor/transmissor serial universal. 

6. Interface serial I2C, um padrao comum para a interface com sensores. 

7. Temporizador de vigia programavel, que detecta quando o sistema ficou travado. 

8. Comparador analogico no chip, que compara duas tensoes de entrada. 

9. Detector de falha de energia, que interrompe o sistema quando a energia estiver faltando. 

10. Oscilador de clock interno programavel, para controlar o clock da CPU. 

1.5 Unidades metricas 

Para evitar qualquer confusao, vale a pena deixar expllcito que, neste livro, assim como na ciencia da computagao 
em geral, sao usadas unidades metricas em vez das tradicionais unidades inglesas (o sistema furlong-stone- 
-jortnight). Os principais prefixos metricos estao relacionados na Figura 1.16. Os prefixos costumam ser abrevia- 
dos por suas primeiras letras, sendo a unidade maior do que 1 em maiusculas (KB, MB etc.). Uma excegao (por 
razoes historicas) e kbps para kilobits/s. Assim, uma linha de comunicagao de 1 Mbps transmite 10 6 bits/s e um 
relogio de 100 ps bate a cada 10 -10 segundos. Uma vez que ambos os prefixos, mili e micro, comegam com a letra 
“m”, foi preciso fazer uma escolha. Normalmente, “m” representa mili e “p” (a letra grega mu) representa micro. 


Figura 1.16 


Os principais prefixos metricos. 



Tambem vale a pena lembrar que, para medir tamanhos de memorias, discos, arquivos e banco de dados, 
na pratica comum do setor as unidades tern significados ligeiramente diferentes. Quilo, por exemplo, significa 
2 10 (1.024) em vez de 10 3 (1.000), porque as memorias sao sempre uma potencia de dois. Assim, uma memo- 
ria de 1 KB contem 1.024 bytes, e nao 1.000 bytes. De modo semelhante, uma memoria de 1 MB contem 2 20 
(1.048.576) bytes, uma memoria de 1 GB contem 2 30 (1.073.741.824) bytes e um banco de dados de 1 TB contem 
2 40 (1.099.511.627.776) bytes. 
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Todavia, uma linha de comunicagao de 1 kbps pode transmitir 1.000 bits por segundo e uma LAN de 10 
Mbps funciona a 10.000.000 bits/s porque essas velocidades nao sao potencias de dois. Infelizmente, muitas pes- 
soas confundem esses dois sistemas, em especial quando se tratam de tamanhos de disco. 

Para evitar ambiguidade, as organizagoes de padroes introduziram os novos termos kibibyte para 2 10 bytes, 
mebibyte para 2 20 bytes, gibibyte para 2 30 bytes e tebibyte para 2 40 bytes, mas o setor nao os adotou ainda. 
Achamos que, ate esses novos termos serem mais utilizados, e melhor ficar com os slmbolos KB, MB, GB e TB 
para 2 10 , 2 20 , 2 30 e 2 40 bytes, respectivamente, e os slmbolos kbps, Mbps, Gbps e Tbps para 10 3 , 10 6 , 10 9 e 10 12 
bits/s, respectivamente. 


1.6 Esquema deste livro 

Este livro trata de computadores multiniveis (o que inclui praticamente todos os computadores modernos) 
e de como eles sao organizados. Examinaremos quatro nlveis com consideravel detalhe - a saber, o nlvel logico 
digital, o da microarquitetura, o ISA e o do sistema operacional da maquina. Entre alguns dos assuntos basicos 
examinados estao o projeto global do nlvel (e por que foi projetado desse jeito), os tipos de instrugoes e dados 
disponlveis, a organizagao e enderegamento da memoria e o metodo de execugao do nlvel. O estudo desses 
topicos e de topicos semelhantes e denominado organizagao de computadores ou arquitetura de computadores. 

Preocupamo-nos principalmente com os conceitos, em vez dos detalhes ou da matematica formal. Por esse 
motivo, alguns dos exemplos dados serao um pouco simplificados, a fim de enfatizar as ideias centrais, e nao os 
detalhes. 

Para dar uma ideia de como os princlpios apresentados neste livro podem ser, e sao, aplicados na pratica, 
usaremos as arquiteturas x86, ARM e AVR como exemplos correntes em todo o livro. Esses tres foram escolhidos 
por diversas razoes. Primeiro, todos sao muito usados e e provavel que o leitor tenha acesso a no mlnimo um 
deles. Segundo, cada um tern sua propria arquitetura exclusiva, o que da uma base de comparagao e incentiva 
uma atitude de questionamento a respeito das posslveis alternativas. Livros que tratam apenas de uma maquina 
costumam deixar o leitor com uma sensagao de estar revelando um projeto de maquina absoluto, o que e absurdo 
a luz das muitas concessoes e decisoes arbitrarias que os projetistas sao obrigados a tomar. Incentivamos estudar 
esses e todos os outros computadores com esplrito crltico e tentar entender por que as coisas sao como sao e 
tambem como poderiam ser diferentes, em vez de simplesmente aceita-las como fatos. 

E preciso que fique claro desde o inlcio que este livro nao diz respeito a programar o x86, ARM ou AVR. 
Essas maquinas serao usadas como ilustragao quando adequado, mas nao temos a pretensao de sermos completos. 
Os leitores que desejarem uma introdugao minuciosa a uma delas devem consultar o material publicado pelos 
fabricantes. 

O Capltulo 2 e uma introdugao aos componentes basicos de um computador - processadores, memorias e 
equipamento de E/S. Pretende oferecer uma visao geral da arquitetura de sistema e uma introdugao aos capltulos 
seguintes. 

Cada um dos capltulos seguintes - 3, 4, 5 e 6 - trata de um unico nlvel especlfico mostrado na Figura 1.2. 
Nosso tratamento e de baixo para cima, porque as maquinas sao tradicionalmente projetadas dessa maneira. O 
projeto do nlvel k e determinado em grande parte pelas propriedades do nlvel k - 1, portanto, e diflcil entender 
qualquer nlvel, a menos que voceja tenha um bom domlnio do nlvel subjacente que o motivou. Alem disso, em 
termos educacionais, parece mais sensato partir dos nlveis inferiores mais simples para os nlveis superiores mais 
complexos do que o contrario. 

O Capltulo 3 e sobre o nlvel logico digital, o verdadeiro hardware da maquina. Discute o que sao portas 
e como podem ser combinadas para formar circuitos uteis. Tambem introduzimos a algebra booleana, uma 
ferramenta para analisar circuitos digitais. Sao explicados barramentos de computador, em especial o popular 
barramento PCI. Nesse capltulo, sao discutidos diversos exemplos do setor, incluindo os tres exemplos cor¬ 
rentes ja mencionados. 
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O Capltulo 4 apresenta a arquitetura do nlvel de microarquitetura e seu controle. Uma vez que a fungao 
desse nlvel e interpretar instrugoes de nlvel 2 na camada acima dele, nos nos concentraremos nesse topico e o 
ilustraremos por meio de exemplos. O capltulo tambem contem discussoes do nlvel de microarquitetura de algu- 
mas maquinas reais. 

O Capltulo 5 discute o nlvel ISA, aquele que a maioria dos fornecedores anuncia como a linguagem de 
maquina. Aqui, examinaremos em detalhes nossas maquinas de exemplo. 

O Capltulo 6 abrange algumas das instrugoes, organizagao de memoria e mecanismos de controle presentes 
no nlvel do sistema operacional da maquina. Os exemplos usados aqui sao o sistema operacional Windows (popu¬ 
lar em sistemas de desktop baseados no x86) e o Unix, usado em muitos sistemas baseados no ARM. 

O Capltulo 7 trata do nlvel de linguagem de montagem. Abrange a linguagem de montagem e o processo de 
montagem. Aqui tambem e apresentado o topico da ligagao. 

O Capltulo 8 discute computadores paralelos, um topico de crescente importancia nos dias de hoje. Alguns 
desses computadores paralelos tern multiplas CPUs que compartilham a mesma memoria. Outros tern multiplas 
CPUs sem memoria em comum. Alguns sao supercomputadores; alguns sao sistemas em um chip e outros sao 
clusters de computadores. 

O Capltulo 9 contem uma lista comentada de leituras sugeridas, que estao na Sala Virtual. Consulte 
<sv.pearson. com.br>. 


Problemas 

1. Explique cada um dos termos seguintes com suas 
proprias palavras: 

a. Tradutor. 

b. Interpretador. 

c. Maquina virtual. 

2. E conceblvel um compilador gerar salda para o nlvel 
de microarquitetura em vez de para o nlvel ISA? 
Discuta pros e contras dessa proposta. 

3. Voce pode imaginar qualquer computador multinl- 
veis no qual o nlvel de dispositivo e os nlveis logi- 
cos digitais nao estivessem nos nlveis mais baixos? 
Explique. 

4. Considere um computador multinlvel no qual todos 
os nlveis sao diferentes. Cada nlvel tern instrugoes 
que sao m vezes mais poderosas do que as do nlvel 
abaixo dele; isto e, uma instrugao de nlvel r pode 
fazer o trabalho de m instrugoes de nlvel r - E Se um 
programa de nlvel 1 requer k segundos para execu- 
tar, quanto tempo levariam programas equivalentes 
nos nlveis 2, 3 e 4 admitindo que sao necessarias 
n instrugoes de nlvel r para interpretar uma unica 
instrugao de nlvel r + 1 ? 

5. Algumas instrugoes no nlvel do sistema operacional 
da maquina sao identicas a instrugoes em linguagem 
ISA. Elas sao executadas diretamente pelo micropro- 
grama ou pelo hardware, e nao pelo sistema opera¬ 


cional. A luz de sua resposta ao problema anterior, 
por que voce acha que isso acontece? 

6. Considere um computador com interpretadores 
identicos nos nlveis 1, 2 e 3. Um interpretador preci- 
sa de n instrugoes para buscar, examinar e executar 
uma instrugao. Uma instrugao de nlvel 1 demora k 
nanossegundos para executar. Quanto tempo demo¬ 
ra para executar uma instrugao nos nlveis 2, 3 e 4? 

7. Em que sentido hardware e software sao equivalen¬ 
tes? E nao equivalentes? 

8. A maquina diferencial de Babbage tinha um progra¬ 
ma fixo que nao podia ser trocado. Isso e em essencia 
a mesma coisa que um CD-ROM moderno que nao 
pode ser trocado? Explique sua resposta. 

9. Uma das consequencias da ideia de von Neumann 
de armazenar um programa na memoria e que esses 
programas podem ser modificados, exatamente como 
os dados. Voce consegue imaginar um exemplo onde 
essa facilidade poderia ser util? (Died: pense em efe- 
tuar aritmetica em vetores.) 

10. A relagao entre desempenho do 360 modelo 75 e do 
360 modelo 30 era de 50 vezes. Ainda assim, o tempo 
de ciclo era so cinco vezes mais rapido. Como voce 
explica essa discrepancia? 

11. Dois projetos de sistemas sao mostrados nas figuras 
1.5 e 1.6. Descreva como poderia ocorrer entrada/ 
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salda em cada sistema. Qual deles tem potencial para 
melhor desempenho global do sistema? 

12. Suponha que cada um dos 300 milhoes de habitantes 
dos Estados Unidos consome totalmente dois pacotes 
de mercadoria por dia marcados com etiquetas RFID. 
Quantas dessas etiquetas teriam de ser produzidas 
por ano para satisfazer a demanda? Se a etiqueta cus- 
tar um centavo de dolar por unidade, qual e o custo 
total das etiquetas? Dado o tamanho do PIB, essa 
quantia sera um obstaculo a sua utilizagao em cada 
pacote oferecido a venda? 

13. De o nome de tres eletrodomesticos ou aparelhos 
candidatos a funcionar com uma CPU embutida. 

14. Em certa epoca, um transistor instalado em um 
microprocessador tinha 0,1 micron de diametro. 
Segundo a lei de Moore, que tamanho teria um tran¬ 
sistor no modelo do ano seguinte? 

15. Mostrou-se que a lei de Moore nao se aplica apenas 
a densidade de semicondutores, mas tambem preve o 
aumento em tamanhos de simulagao (razoaveis), 
e a redugao nos tempos de simulagao de calculo. 
Primeiro, mostre, para uma simulagao de mecanica 
de fluidos que gasta 4 horas para rodar em uma 
maquina hoje, que so devera gas tar 1 hora para rodar 
em maquinas montadas daqui a 3 anos, e apenas 15 
minutos em maquinas montadas daqui a 6 anos. 
Depois, mostre que, para uma simulagao grande, que 
possui um tempo de execugao estimado de 5 anos, 
ela seria completada mais cedo se esperassemos 3 
anos para iniciar a simulagao. 

16. Em 1959, o IBM 7090 poderia executar cerca de 500 
mil instrugoes/s, tinha uma memoria de 32.768 pala- 
vras de 36 bits e custava US$ 3 milhoes. Compare 
isso com um computador atual e determine o quanto 
melhor o atual e, multiplicando a razao de tamanhos 
e velocidades de memoria e depois dividindo isso 
pela razao dos pregos. Agora, veja o que os mesmos 
ganhos teriam feito com o setor de aviagao no mesmo 
periodo de tempo. O Boeing 707 foi entregue as 
companhias aereas em quantidades substanciais em 
1959. Sua velocidade era de 950 km/h e sua capaci- 
dade era inicialmente de 180 passageiros. Ele custa 


US$ 4 milhoes. Quais seriam agora a velocidade, 
capacidade e custo de uma aeronave se ela tivesse os 
mesmos ganhos de um computador? De forma clara, 
expresse suas suposigoes sobre velocidade, tamanho 
de memoria e prego. 

17. Os desenvolvimentos no setor de computagao geral- 
mente sao ciclicos. De inicio, os conjuntos de 
instrugoes eram fixos, depois foram microprogra- 
mados, depois surgiram maquinas RISC e eles eram 
novamente fixos. Na origem, a computagao era 
centralizada em grandes computadores mainframe. 
Liste dois desenvolvimentos que demonstram o 
comportamento clclico aqui tambem. 

18. A questao legal que envolvia quern teria inventado o 
computador foi resolvida em abril de 1973 pelo juiz 
Earl Larson, que julgou uma agao judicial de violagao 
de patente impetrada pela Sperry Rand Corporation, 
que tinha adquirido as patentes do ENIAC. A posigao 
da Sperry Rand era de que todos os fabricantes de 
computadores lhe deviam royalties porque as patentes 
principais lhe pertenciam. O caso foi a julgamento em 
junho de 1971 e mais de 30 mil provas foram apre- 
sentadas. O arquivo do caso passou de 20 mil paginas. 
Estude esse caso com mais cuidado usando a grande 
quantidade de informagoes disponiveis na Internet e 
redija um relatorio que discuta seus aspectos tecnicos. 
O que, exatamente, Eckert e Mauchley patentearam e 
por que o juiz achou que o sistema deles era baseado 
no trabalho anterior de Atanasoff? 

19. Escolha tres pessoas que voce considera serem as 
mais influentes na criagao do moderno hardware de 
computadores e redija um cur to relatorio que des- 
creva suas contribuigoes e o motivo de escolhe-las. 

20. Escolha tres pessoas que voce considera serem as 
mais influentes na criagao do moderno software de 
sistemas de computagao e redija um cur to relato¬ 
rio que descreva suas contribuigoes e o motivo de 
escolhe-las. 

21. Escolha tres pessoas que voce considera serem as 
mais influentes na criagao dos modernos sites da web 
e redija um cur to relatorio que descreva suas contri¬ 
buigoes e o motivo de escolhe-las. 







Organizacao de sistemas 
de computadores 


U m computador digital consiste em um sistema interconectado de processadores, memoria e dispositi- 
vos de entrada/salda. Este capltulo e uma introdugao a esses tres componentes e a sua interconexao, 
como base para o exame mais detalhado de nlveis especlficos nos cinco capltulos subsequentes. 
Processadores, memorias e dispositivos de entrada/salda sao conceitos fundamentais e estarao presentes em 
todos os nlveis, portanto, iniciaremos nosso estudo da arquitetura de computadores examinando todos os tres, 
um por vez. 


2.1 Processadores 

A organizagao de um computador simples com barramento e mostrada na Figura 2.1. A CPU (Central 
Processing Unit - unidade central de processamento) e o “cerebro” do computador. Sua fungao e executar 
programas armazenados na memoria principal buscando suas instrugoes, examinando-as e entao executando-as 
uma apos a outra. Os componentes sao conectados por um barramento, conjunto de fios paralelos que transmi- 
tem enderegos, dados e sinais de controle. Barramentos podem ser externos a CPU, conectando-a a memoria e 
aos dispositivos de E/S, mas tambem podem ser internos, como veremos em breve. Os computadores modernos 
possuem varios barramentos. 
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Figura 2.1 A organizacao de um computador simples com uma CPU e dois dispositivos de E/S. 

Unidade central de processamento (CPU) 
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A CPU e composta por varias partes distintas. A unidade de controle e responsavel por buscar instrugoes na 
memoria principal e determinar seu tipo. A unidade de aritmetica e logica efetua operagoes como adigao e AND 
(E) booleano para executar as instrugoes. 

A CPU tambem contem uma pequena memoria de alta velocidade usada para armazenar resultados tem¬ 
poraries e para algum controle de informagoes. Essa memoria e composta de uma quantidade de registradores, 
cada um deles com determinado tamanho e fungao. Em geral, todos os registradores tern o mesmo tamanho. Cada 
um pode conter um numero, ate algum maximo definido pelo tamanho do registrador. Registradores podem ser 
lidos e escritos em alta velocidade porque sao internos a CPU. 

O registrador mais importante e o Contador de Programa (PC - Program Counter), que indica a proxi- 
ma instrugao a ser buscada para execugao. (O nome “contador de programa” e um tanto enganoso, porque 
nada tern a ver com contar qualquer coisa; porem, o termo e de uso universal.) Tambem importante e o 
Registrador de Instrugao (IR - Instruction Register), que mantem a instrugao que esta sendo executada no 
momento em questao. A maioria dos computadores tambem possui diversos outros registradores, alguns de 
uso geral, outros de uso especlfico. Outros registradores sao usados pelo sistema operacional para controlar 
o computador. 

2.1.1 Organizacao da CPU 

A organizagao interna de parte de uma tlpica CPU de von Neumann e mostrada na Figura 2.2 com mais 
detalhes. Essa parte e denominada caminho de dados e e composta por registradores (em geral 1 a 32), da ULA 
(unidade logica e aritmetica) e por diversos barramentos que conectam as partes. Os registradores alimentam 
dois registradores de entrada da ULA, representados por A e B na. figura. Eles contem a entrada da ULA enquan- 
to ela esta executando alguma operagao de computagao. O caminho de dados e muito importante em todas as 
maquinas e nos o discutiremos minuciosamente em todo este livro. 
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Figura 2.2 


0 caminho de dados de uma tfpica maquina de von Neumann. 



A ULA efetua adigao, subtragao e outras operagoes simples sobre suas entradas, produzindo assim um resul- 
tado no registrador de salda, o qual pode ser armazenado em um registrador. Mais tarde, ele pode ser escrito (isto 
e, armazenado) na memoria, se desejado. Nem todos os projetos tern os registradores A, B e de salda. No exemplo, 
ilustramos uma adigao, mas as ULAs tambem realizam outras operagoes. 

Grande parte das instrugoes pode ser dividida em uma de duas categorias: registrador-memoria ou 
registrador-registrador. Instrugoes registrador-memoria permitem que palavras de memoria sejam buscadas 
em registradores, onde podem ser usadas como entradas de ULA em instrugoes subsequentes, por exemplo. 
(“Palavras” sao as unidades de dados movimentadas entre memoria e registradores. Uma palavra pode ser 
um numero inteiro. Discutiremos organizagao de memoria mais adiante neste capltulo.) Outras instrugoes 
registrador-memoria permitem que registradores voltem a memoria para armazenagem. 

O outro tipo de instrugao e registrador-registrador. Uma instrugao registrador-registrador tlpica busca dois 
operandos nos registradores, traz os dois ate os registradores de entrada da ULA, efetua alguma operagao com eles 
(por exemplo, adigao ou AND booleano) e armazena o resultado em um dos registradores. O processo de passar 
dois operandos pela ULA e armazenar o resultado e denominado ciclo do caminho de dados e e o coragao da 
maioria das CPUs. Ate certo ponto consideravel, ele define o que a maquina pode fazer. Quanto mais rapido for 
o ciclo do caminho de dados, mais rapido sera o funcionamento da maquina. 

2.1.2 Execucao de instrucao 

A CPU executa cada instrugao em uma serie de pequenas etapas. Em termos simples, as etapas sao as seguintes: 

1. Trazer a proxima instrugao da memoria ate o registrador de instrugao. 

2. Alterar o contador de programa para que aponte para a proxima instrugao. 
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3. Determinar o tipo de instrugao trazida. 

4. Se a instrugao usar uma palavra na memoria, determinar onde essa palavra esta. 

5. Trazer a palavra para dentro de um registrador da CPU, se necessario. 

6. Executar a instrugao. 

7. Voltar a etapa 1 para iniciar a execugao da instrugao seguinte. 


Tal sequencia de etapas costuma ser denominada ciclo buscar-decodificar-executar. E fundamental para a 
operagao de todos os computadores. 

Essa descrigao do modo de funcionamento de uma CPU e muito parecida com um programa escrito em 
ingles. A Figura 2.3 mostra esse programa informal reescrito como um metodo Java (isto e, um procedimento) 
denominado interpret. A maquina que esta sendo interpretada tern dois registradores visiveis para programas 
usuarios: o contador de programa (PC), para controlar o enderego da proxima instrugao a ser buscada, e o acu- 
mulador (AC), para acumular resultados aritmeticos. Tambem tern registradores internos para conter a instrugao 
corrente durante sua execugao (instr), o tipo da instrugao corrente (instr_type), o enderego do operando da ins¬ 
trugao (data_loc) e o operando corrente em si (data). Admitimos que as instrugoes contem um unico enderego de 
memoria. A localizagao de memoria enderegada contem o operando, por exemplo, o item de dado a ser somado 
ao acumulador. 


Figura 2.3 


Interpretador para um computador simples (escrito em Java). 


public class Interp { 

static int PC; 
static int AC; 
static int instr; 
static int instr_type; 
static int data Joe; 
static int data; 

static boolean run_bit = true; 


// contador de programa contem enderego da proxima instr 
// o acumulador, um registrador para efetuar aritmetica 
// um registrador para conter a instrugao corrente 
// o tipo da instrugao (opcode) 

// o enderego dos dados, ou -1 se nenhum 

// mantem o operando corrente 

// um bit que pode ser desligado para parar a maquina 


public static void interpret(int memory[ ], int starting_ address) { 

// Esse procedimento interpreta programas para uma maquina simples com instrugoes que tern 
// um operando na memoria. A maquina tern um registrador AC (acumulador), usado para 
// aritmetica. A instrugao ADD soma um inteiro na memoria do AC, por exemplo. 

// O interpretador continua funcionando ate o bit de funcionamento ser desligado pela instrugao HALT. 
// O estado de um processo que roda nessa maquina consiste em memoria, o 
// contador de programa, bit de funcionamento e AC. Os parametros de entrada consistem 
/ na imagem da memoria e no enderego inicial. 

PC = starting_address; 
while (runjeit) { 

instr = memory[PC]; 

PC = PC + 1; 

instr Jype = getjnstrjype(instr); 
datajoc = find_data(instr, instrjype); 
if (datajoc >= 0) 
data = memory[dataJoc]; 
execute(instrjype, data); 

} 


// busca a proxima instrugao e armazena em instr 
// incrementa contador de programa 
// determina tipo da instrugao 
// localiza dados (-1 se nenhum) 

// se datajoc e -1, nao ha nenhum operando 
// busca os dados 
// executa instrugao 


private static int getjnstrjype(int addr) { ... } 
private static int find_data(int instr, int type) { ... } 
private static void execute(int type, int data) { ... } 
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Essa equivalence entre processadores de hardware e interpretadores tem importantes implicagoes para a 
organizagao de computadores e para o projeto de sistemas de computadores. Apos a especificagao da lingua- 
gem de maquina, L, para um novo computador, a equipe de projeto pode decidir se quer construir um processador 
de hardware para executar programas em L diretamente ou se quer escrever um interpretador para interpretar 
programas em L. Se a equipe preferir escrever um interpretador, tambem deve providenciar alguma maquina de 
hardware para executa-lo. Sao posslveis ainda certas construgoes hlbridas, com um pouco de execugao em hard¬ 
ware, bem como alguma interpretagao de software. 

Um interpretador subdivide as instrugoes da maquina em questao em pequenas etapas. Por conseguinte, a 
maquina na qual o interpretador roda deve ser muito mais simples e menos cara do que seria um processador de 
hardware para a maquina citada. Essa economia e has tan te significativa se a maquina em questao tiver um grande 
numero de instrugoes e estas forem razoavelmente complicadas, com muitas opgoes. Basicamente, a economia 
vem do fato de que o hardware esta sendo substituldo por software (o interpretador) e custa mais reproduzir 
hardware do que software. 

Os primeiros computadores tinham conjuntos de instrugoes pequenos, simples. Mas a procura por equipa- 
mentos mais poderosos levou, entre outras coisas, a instrugoes individuais mais poderosas. Logo se descobriu que 
instrugoes mais complexas muitas vezes levavam a execugao mais rapida do programa mesmo que as instrugoes 
individuais demorassem mais para ser executadas. Uma instrugao de ponto flutuante e um exemplo de instru¬ 
gao mais complexa. O suporte direto para acessar elementos matriciais e outro. As vezes, isso era simples como 
observar que as mesmas duas instrugoes muitas vezes ocorriam em sequencia, de modo que uma unica instrugao 
poderia fazer o trabalho de ambas. 

As instrugoes mais complexas eram melhores porque a execugao de operagoes individuais as vezes podia ser 
sobreposta ou entao executada em paralelo usando hardware diferente. No caso de computadores caros, de alto 
desempenho, o custo desse hardware extra poderia ser justificado de imediato. Assim, computadores caros, de 
alto desempenho, passaram a ter mais instrugoes do que os de custo mais baixo. Contudo, requisitos de compa- 
tibilidade de instrugoes e o custo crescente do desenvolvimento de software criaram a necessidade de executar 
instrugoes complexas mesmo em computadores de baixo custo, nos quais o custo era mais importante do que a 
velocidade. 

No final da decada de 1950, a IBM (na epoca a empresa que dominava o setor de computadores) percebeu 
que prestar suporte a uma unica famllia de maquinas, todas executando as mesmas instrugoes, tinha muitas 
vantagens, tan to para a IBM quanto para seus clientes. Entao, a empresa introduziu o termo arquitetura para 
descrever esse nivel de compatibilidade. Uma nova famllia de computadores teria uma so arquitetura, mas muitas 
implementagoes diferentes que poderiam executar o mesmo programa e seriam diferentes apenas em prego e velo¬ 
cidade. Mas como construir um computador de baixo custo que poderia executar todas as complicadas instrugoes 
de maquinas caras, de alto desempenho? 

A resposta foi a interpretagao. Essa tecnica, que ja tinha sido sugerida por Maurice Wilkes (1951), permitia 
o projeto de computadores simples e de menor custo, mas que, mesmo assim, podiam executar um grande nume¬ 
ro de instrugoes. O resultado foi a arquitetura IBM System/360, uma famllia de computadores compatlveis que 
abrangia quase duas ordens de grandeza, tanto em prego quanto em capacidade. Uma implementagao de hardware 
direto (isto e, nao interpretado) era usada somente nos modelos mais caros. 

Computadores simples com instrugoes interpretadas tambem tinham outros beneflcios, entre os quais os 
mais importantes eram: 

1. A capacidade de corrigir em campo instrugoes executadas incorretamente ou ate compensar deficien- 
cias de projeto no hardware basico. 

2. A oportunidade de acrescentar novas instrugoes a um custo mlnimo, mesmo apos a entrega da maquina. 

3. Projeto estruturado que permitia desenvolvimento, teste e documentagao eficientes de instrugoes 
complexas. 
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A medida que o mercado explodia em grande estilo na decada de 1970 e as capacidades de computagao 
cresciam depressa, a demanda por maquinas de baixo custo favorecia projetos de computadores que usassem 
interpretadores. A capacidade de ajustar hardware e interpretador para um determinado conjunto de instrugoes 
surgiu como um projeto muito eficiente em custo para processadores. A medida que a tecnologia subjacente dos 
semicondutores avangava, as vantagens do custo compensavam as oportunidades de desempenho mais alto e as 
arquiteturas baseadas em interpretador se tornaram o modo convencional de projetar computadores. Quase todos 
os novos computadores projetados na decada de 1970, de microcomputadores a mainframes , tinham a interpre- 
tagao como base. 

No final da decada de 1970, a utilizagao de processadores simples que executavam interpretadores tinha se 
propagado em grande escala, exceto entre os modelos mais caros e de desempenho mais alto, como o Cray-1 e 
a serie Cyber da Control Data. A utilizagao de um interpretador eliminava as limitagoes de custo inerentes as 
instrugoes complexas, de modo que os projetistas comegaram a explorar instrugoes muito mais complexas, em 
particular os modos de especificar os operandos a utilizar. 

A tendencia alcangou seu ponto mais alto com o VAX da Digital Equipment Corporation, que tinha varias 
centenas de instrugoes e mais de 200 modos diferentes de especificar os operandos a serem usados em cada ins¬ 
trugao. Infelizmente, desde o inlcio a arquitetura do VAX foi concebida para ser executada com um interpretador, 
sem dar muita atengao a realizagao de um modelo de alto desempenho. Esse modo de pensar resultou na inclusao 
de um numero muito grande de instrugoes de valor marginal e que eram diflceis de executar diretamente. Essa 
omissao mostrou ser fatal para o VAX e, por fim, tambem para a DEC (a Compaq comprou a DEC em 1998 e a 
Hewlett-Packard comprou a Compaq em 2001). 

Embora os primeiros microprocessadores de 8 bits fossem maquinas muito simples com conjuntos de instru¬ 
goes muito simples, no final da decada de 1970 ate os microprocessadores tinham passado para projetos baseados 
em interpretador. Durante esse perlodo, um dos maiores desafios enfrentados pelos projetistas de microproces¬ 
sadores era lidar com a crescente complexidade, possibilitada por meio de circuitos integrados. Uma importante 
vantagem do metodo baseado em interpretador era a capacidade de projetar um processador simples e confinar 
quase toda a complexidade na memoria que continha o interpretador. Assim, um projeto complexo de hardware 
se transformou em um projeto complexo de software. 

O sucesso do Motorola 68000, que tinha um grande conjunto de instrugoes interpretadas, e o concomitante 
fracasso do Zilog Z8000 (que tinha um conjunto de instrugoes tao grande quanto, mas sem um interpretador) 
demonstraram as vantagens de um interpretador para levar um novo microprocessador rapidamente ao mercado. 
Esse sucesso foi ainda mais surpreendente dada a vantagem de que o Zilog desfrutava (o antecessor do Z8000, 
o Z80, era muito mais popular do que o antecessor do 68000, o 6800). Claro que outros fatores tambem contri- 
bulram para isso, e um dos mais importantes foi a longa historia da Motorola como fabricante de chips e a longa 
historia da Exxon (proprietaria da Zilog) como empresa de petroleo, e nao como fabricante de chips. 

Outro fator a favor da interpretagao naquela epoca foi a existencia de memorias rapidas somente de leitura, 
denominadas memorias de controle, para conter os interpretadores. Suponha que uma instrugao interpretada 
tlpica precisasse de 10 instrugoes do interpretador, denominadas microinstrugoes, a 100 ns cada, e duas referen¬ 
ces a memoria principal a 500 ns cada. Entao, o tempo total de execugao era 2.000 ns, apenas um fator de dois 
pior do que o melhor que a execugao direta podia conseguir. Se a memoria de controle nao estivesse disponlvel, 
a instrugao levaria 6.000 ns. Uma penalidade de fator seis e muito mais diflcil de aceitar do que uma penalidade 
de fator dois. 


2.1.3 RISC versus CISC 

Durante o final da decada de 1970, houve experiences com instrugoes muito complexas que eram pos- 
sibilitadas pelo interpretador. Os projetistas tentavam fechar a “lacuna semantica” entre o que as maquinas 
podiam fazer e o que as linguagens de programagao de alto nlvel demandavam. Quase ninguem pensava em 
projetar maquinas mais simples, exatamente como agora nao ha muita pesquisa na area de projeto de plani- 
lhas, redes, servidores Web etc. menos poderosos (o que talvez seja lamentavel). 
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Um grupo que se opos a tendencia e tentou incorporar algumas das ideias de Seymour Cray em um minicom- 
putador de alto desempenho foi liderado por John Cocke na IBM. Esse trabalho resultou em um minicomputador 
denominado 801. Embora a IBM nunca tenha langado essa maquina no mercado e os resultados tenham sido 
publicados so muitos anos depois (Radin, 1982), a notlcia vazou e outros comegaram a investigar arquiteturas 
semelhantes. 

Em 1980, um grupo em Berkeley, liderado por David Patterson e Carlo Sequin, comegou a projetar chips 
para CPUs VLSI que nao usavam interpretagao (Patterson, 1985; Patterson e Sequin, 1982). Eles cunharam o 
termo RISC para esse conceito e deram ao seu chip de CPU o nome RISC I CPU, seguido logo depois pelo RISC II. 
Um pouco mais tarde, em 1981, do outro lado da bala de Sao Francisco, em Stanford, John Hennessy projetou 
e fabricou um chip um pouco diferente, que ele chamou de MIPS (Hennessy, 1984). Esses chips evolulram para 
produtos de importancia comercial, o SPARC e o MIPS, respectivamente. 

Esses novos processadores tinham diferengas significativas em relagao aos que havia no comercio naquela 
epoca. Uma vez que essas novas CPUs nao eram compatlveis com os produtos existentes, seus projetistas tinham 
liberdade para escolher novos conjuntos de instrugoes que maximizassem o desempenho total do sistema. 
Embora a enfase inicial estivesse dirigida a instrugoes simples, que podiam ser executadas rapidamente, logo se 
percebeu que projetar instrugoes que podiam ser emitidas (iniciadas) rapidamente era a chave do bom desem¬ 
penho. Na verdade, o tempo que uma instrugao demorava importava menos do que quantas delas podiam ser 
iniciadas por segundo. 

Na epoca em que o projeto desses processadores simples estava no inlcio, a caracterlstica que chamou a aten- 
gao de todos era o numero relativamente pequeno de instrugoes disponlveis, em geral cerca de 50. Esse numero 
era muito menor do que as 200 a 300 de computadores como o VAX da DEC e os grandes mainframes da IBM. 
De fato, o acronimo RISC quer dizer Reduced Instruction Set Computer (computador com conjunto de instru¬ 
goes reduzido), em comparagao com CISC, que significa Complex Instruction Set Computer (computador com 
conjunto de instrugoes complexo), uma referenda nada sutil ao VAX que, na epoca, dominava os departamentos 
de ciencia da computagao das universidades. Hoje em dia, poucas pessoas acham que o tamanho do conjunto de 
instrugoes seja um assunto importante, mas o nome pegou. 

Encurtando a historia, seguiu-se uma grande guerra santa, com os defensores do RISC atacando a ordem 
estabelecida (VAX, Intel, grandes mainframes da IBM). Eles afirmavam que o melhor modo de projetar um com¬ 
putador era ter um pequeno numero de instrugoes simples que executassem em um so ciclo do caminho de dados 
da Figura 2.2, ou seja, buscar dois registradores, combina-los de algum modo (por exemplo, adicionando-os ou 
fazendo AND) e armazenar o resultado de volta em um registrador. O argumento desses pesquisadores era de que, 
mesmo que uma maquina RISC precisasse de quatro ou cinco instrugoes para fazer o que uma CISC fazia com 
uma so, se as instrugoes RISC fossem dez vezes mais rapidas (porque nao eram interpretadas), o RISC vencia. 
Tambem vale a pena destacar que, naquele tempo, a velocidade de memorias principais tinha alcangado a velo- 
cidade de memorias de controle somente de leitura, de modo que a penalidade imposta pela interpretagao tinha 
aumentado demais, o que favorecia muito as maquinas RISC. 

Era de imaginar que, dadas as vantagens de desempenho da tecnologia RISC, as maquinas RISC (como a Sun 
UltraSPARC) passariam como rolo compressor sobre as maquinas CISC (tal como a Pentium da Intel) existentes 
no mercado. Nada disso aconteceu. Por que? 

Antes de tudo, ha a questao da compatibilidade e dos bilhoes de dolares que as empresas tinham investido 
em software para a linha Intel. Em segundo lugar, o que era surpreendente, a Intel conseguiu empregar as mesmas 
ideias mesmo em uma arquitetura CISC. A partir do 486, as CPUs da Intel contem um nucleo RISC que executa 
as instrugoes mais simples (que normalmente sao as mais comuns) em um unico ciclo do caminho de dados, 
enquanto interpreta as mais complicadas no modo CISC de sempre. O resultado disso e que as instrugoes comuns 
sao rapidas e as menos comuns sao lentas. Mesmo que essa abordagem hlbrida nao seja tao rapida quanto um 
projeto RISC puro, ela resulta em desempenho global competitivo e ainda permite que softwares antigos sejam 
executados sem modificagao. 
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2.1.4 Principios de projeto para computadores modernos 

Agora que ja se passaram mais de duas decadas desde que as primeiras maquinas RISC foram langadas, certos 
principios de projeto passaram a ser aceitos como um bom modo de projetar computadores, dado o estado atual 
da tecnologia de hardware. Se ocorrer uma importante mudanga na tecnologia (por exemplo, se, de repente, um 
novo processo de fabricagao fizer o ciclo de memoria ficar dez vezes mais rapido do que o tempo de ciclo da 
CPU), todas as apostas perdem. Assim, os projetistas de maquinas devem estar sempre de olho nas mudangas 
tecnologicas que possam afetar o equillbrio entre os componentes. 

Dito isso, ha um conjunto de principios de projeto, as vezes denominados principios de projeto RISC, que 
os arquitetos de CPUs de uso geral se esforgam por seguir. Limitagoes externas, como a exigencia de compatibili- 
dade com alguma arquitetura existente, muitas vezes exigem uma solugao de conciliagao de tempos em tempos, 
mas esses principios sao metas que a maioria dos projetistas se esforga para cumprir. A seguir, discutiremos os 
principais. 

• Todas as instrucoes sao executadas diretamente por hardware 

Todas as instrugoes comuns sao executadas diretamente pelo hardware - nao sao interpretadas por micro- 
instrugoes. Eliminar um nlvel de interpretagao da aha velocidade a maioria das instrugoes. No caso de compu¬ 
tadores que executam conjuntos de instrugoes CISC, as instrugoes mais complexas podem ser subdivididas em 
partes separadas que entao podem ser executadas como uma sequencia de microinstrugoes. Essa etapa extra torna 
a maquina mais lenta, porem, para instrugoes que ocorrem com menos frequencia, isso pode ser aceitavel. 

• Maximize a taxa de execucao das instrucoes 

Computadores modernos recorrem a muitos truques para maximizar seu desempenho, entre os quais o prin¬ 
cipal e ten tar iniciar o maximo posslvel de instrugoes por segundo. Afinal, se voce puder emitir 500 milhoes de 
instrugoes por segundo, tera construldo um processador de 500 MIPS, nao importa quanto tempo elas realmente 
levem para ser concluldas. (MIPS quer dizer Milhoes de Instrugoes Por Segundo. O processador MIPS recebeu 
esse nome como um trocadilho desse acronimo. Oficialmente, ele significa Microprocessor without Interlocked 
Pipeline Stages - microprocessador sem estagios paralelos de interbloqueio.) Esse princlpio sugere que o parale- 
lismo pode desempenhar um importante papel na melhoria do desempenho, uma vez que emitir grandes quanti- 
dades de instrugoes lentas em curto intervalo de tempo so e posslvel se varias instrugoes puderem ser executadas 
ao mesmo tempo. 

Embora as instrugoes sempre sejam encontradas na ordem do programa, nem sempre elas sao executadas 
nessa mesma ordem (porque algum recurso necessario pode estar ocupado) e nao precisam terminar na ordem 
do programa. E claro que, se a instrugao 1 estabelece um registrador e a instrugao 2 usa esse registrador, deve-se 
tomar muito cuidado para garantir que a instrugao 2 nao leia o registrador ate que ele contenha o valor correto. 
Fazer isso funcionar direito requer muito controle, mas possibilita ganhos de desempenho por executar varias 
instrugoes ao mesmo tempo. 

• Instrucoes devem ser faceis de decodificar 

Um limite crltico para a taxa de emissao de instrugoes e a decodificagao de instrugoes individuais para 
determinar quais recursos elas necessitam. Qualquer coisa que possa ajudar nesse processo e util. Isso inclui fazer 
instrugoes regulares, de comprimento fixo, com um pequeno numero de campos. Quanto menor o numero de 
formatos diferentes para as instrugoes, melhor. 

• Somente LOAD e STORE devem referenciar a memoria 

Um dos modos mais simples de subdividir operagoes em etapas separadas e requerer que os operandos para 
a maioria das instrugoes venham de registradores da CPU e a eles retornem. A operagao de movimentagao de 
operandos da memoria para registradores pode ser executada em instrugoes separadas. Uma vez que o acesso a 
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memoria pode levar um longo tempo, e que o atraso e imprevislvel, o melhor e sobrepor essas instrugoes a outras 
se elas nada fizerem exceto movimentar operandos entre registradores e memoria. Essa observagao significa que 
somente instrugoes LOAD e STORE devem referenciar a memoria. Todas as outras devem operar apenas em 
registradores. 

• Providencie muitos registradores 

Vis to que o acesso a memoria e relativamente lento, e preciso providenciar muitos registradores (no mlnimo, 
32) de modo que, assim que uma palavra for buscada, ela possa ser mantida em um registrador ate nao ser mais 
necessaria. Esgotar os registradores e ter de descarrega-los de volta a memoria so para ter de recarrega-los mais 
tarde e indesejavel e deve ser evitado o maximo posslvel. A melhor maneira de conseguir isso e ter um numero 
suficiente de registradores. 

2.1.5 Paralelismo no nivel de instrucao 

Arquitetos de computadores estao sempre se esforgando para melhorar o desempenho das maquinas que 
projetam. Fazer os chips funcionarem com maior rapidez aumentando suas velocidades de clock e um modo, 
mas, para cada novo projeto, ha um limite para o que e posslvel fazer por forga bruta naquele momento da 
Historia. Por conseguinte, grande parte dos arquitetos de computadores busca o paralelismo (fazer duas ou 
mais coisas ao mesmo tempo) como um meio de conseguir desempenho ainda melhor para dada velocidade 
de clock. 

O paralelismo tern duas formas gerais, a saber, no nivel de instrugao e no nivel de processador. Na primeira, 
o paralelismo e explorado dentro de instrugoes individuals para obter da maquina mais instrugoes por segundo. 
Na ultima, varias CPUs trabalham juntas no mesmo problema. Cada abordagem tern seus proprios meritos. Nesta 
segao, vamos estudar o paralelismo no nivel de instrugao; na segao seguinte, estudaremos o paralelismo no nivel 
de processador. 

• Pipelining (paralelismo) 

Ha anos sabe-se que o processo de buscar instrugoes na memoria e um grande gargalo na velocidade de 
execugao da instrugao. Para amenizar esse problema, os computadores, desde o IBM Stretch (1959), tinham a 
capacidade de buscar instrugoes na memoria antecipadamente, de maneira que estivessem presentes quando 
necessarias. Essas instrugoes eram armazenadas em um conjunto de registradores denominado buffer de busca 
antecipada (ou prefetch buffer). Desse modo, quando necessaria, uma instrugao podia ser apanhada no buffer de 
busca antecipada, em vez de esperar pela conclusao de uma leitura da memoria. 

Na verdade, a busca antecipada divide a execugao da instrugao em duas partes: a busca e a execugao 
propriamente dita. O conceito de pipeline (paralelismo, canalizagao) amplia muito mais essa estrategia. Em 
vez de dividir a execugao da instrugao em apenas duas partes, muitas vezes ela e dividida em muitas partes 
(uma duzia ou mais), cada uma manipulada por uma parte dedicada do hardware, e todas elas podem exe- 
cutar em paralelo. 

A Figura 2.4(a) ilustra um pipeline com cinco unidades, tambem denominadas estagios. O estagio 1 busca 
a instrugao na memoria e a coloca em um buffer ate que ela seja necessaria. O estagio 2 decodifica a instrugao, 
determina seu tipo e de quais operandos ela necessita. O estagio 3 localiza e busca os operandos, seja nos regis¬ 
tradores, seja na memoria. O estagio 4 e que realiza o trabalho de executar a instrugao, normalmente fazendo os 
operandos passarem pelo caminho de dados da Figura 2.2. Por fim, o estagio 5 escreve o resultado de volta no 
registrador adequado. 



Capitulo 2 • Organizacao de sistemas de computadores 


51 


Figura 2.4 (a) Pipeline de cinco estagios. (b) Estado de cada estagio como uma funcao do tempo. Sao ilustrados nove ciclos de clock. 


SI S2 S3 S4 S5 



(a) 


SI: 

□ 

0 

0 

0 

0 

0 

0 

0 

0 

S2: 


m 

0 

0 

0 

0 

0 

0 

0 

S3: 



m 

0 

0 

0 

0 

0 

0 

S4: 




0 

0 

0 

0 

0 

0 

S5: 





0 

0 

0 

0 

0 


1 

2 

3 

4 

5 

6 

7 

8 

9 


Tempo — 

(b) 


Na Figura 2.4(b), vemos como o pipeline funciona em fungao do tempo. Durante o ciclo de clock 1, o 
estagio SI esta trabalhando na instrugao 1, buscando-a na memoria. Durante o ciclo 2, o estagio S2 decodifica 
a instrugao 1, enquanto o estagio SI busca a instrugao 2. Durante o ciclo 3, o estagio S3 busca os operandos 
para a instrugao 1, o estagio S2 decodifica a instrugao 2 e o estagio SI busca a terceira instrugao. Durante o 
ciclo 4, o estagio S4 executa a instrugao 1, S3 busca os operandos para a instrugao 2, S2 decodifica a instrugao 
3 e SI busca a instrugao 4. Por fim, durante o ciclo 5, S5 escreve (grava) o resultado da instrugao 1 de volta ao 
registrador, enquanto os outros estagios trabalham nas instrugoes seguintes. 

Vamos considerar uma analogia para esclarecer melhor o conceito de pipelining. Imagine uma fabrica de 
bolos na qual a operagao de produgao dos bolos e a operagao da embalagem para expedigao sao separadas. 
Suponha que o departamento de expedigao tenha uma longa esteira transportadora ao longo da qual trabalham 
cinco funcionarios (unidades de processamento). A cada 10 segundos (o ciclo de clock), o funcionario 1 coloca 
uma embalagem de bolo vazia na esteira. A caixa e transportada ate o funcionario 2, que coloca um bolo dentro 
dela. Um pouco mais tarde, a caixa chega a estagao do funcionario 3, onde e fechada e selada. Em seguida, prosse- 
gue ate o funcionario 4, que coloca uma etiqueta na embalagem. Por fim, o funcionario 5 retira a caixa da esteira e 
a coloca em um grande container que mais tarde sera despachado para um supermercado. Em termos gerais, esse 
e o modo como um pipeline de computador tambem funciona: cada instrugao (bolo) passa por diversos estagios 
de processamento antes de aparecer ja conclulda na extremidade final 

Voltando ao nosso pipeline da Figura 2.4, suponha que o tempo de ciclo dessa maquina seja 2 ns. Sendo 
assim, uma instrugao leva 10 ns para percorrer todo o caminho do pipeline de cinco estagios. A primeira vista, 
como uma instrugao demora 10 ns, parece que a maquina poderia funcionar em 100 MIPS, mas, na verdade, ela 
funciona muito melhor do que isso. A cada ciclo de clock (2 ns), uma nova instrugao e conclulda, portanto, a 
velocidade real de processamento e 500 MIPS, e nao 100 MIPS. 

O pipelining permite um compromisso entre latencia (o tempo que demora para executar uma instrugao) e lar- 
gura de banda de processador (quantos MIPS a CPU tern). Com um tempo de ciclo de T ns e n estagios no pipeline , 
a latencia e nT ns porque cada instrugao passa por n estagios, cada um dos quais demora T ns. 

Vis to que uma instrugao e conclulda a cada ciclo de clock e que ha 10 9 /T ciclos de clock por segundo, o 
numero de instrugoes executadas por segundo e 10 9 /T. Por exemplo, se T = 2 ns, 500 milhoes de instrugoes sao 
executadas a cada segundo. Para obter o numero de MIPS, temos de dividir a taxa de execugao de instrugao por 
1 milhao para obter (10 9 /T)/10 6 = 1.000/T MIPS. Em teoria, poderlamos medir taxas de execugao de instrugao em 
BIPS em vez de MIPS, mas ninguem faz isso, portanto, nos tambem nao o faremos. 
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• Arquiteturas superescalares 

Se um pipeline e bom, entao certamente dois pipelines sao ainda melhores. Um projeto posslvel para 
uma CPU com dois pipelines , com base na Figura 2.4, e mostrado na Figura 2.5. Nesse caso, uma unica 
unidade de busca de instrugoes busca pares de instrugoes ao mesmo tempo e coloca cada uma delas em 
seu proprio pipeline , completo com sua propria ULA para operagao paralela. Para poder executar em para- 
lelo, as duas instrugoes nao devem ter conflito de utilizagao de recursos (por exemplo, registradores) e 
nenhuma deve depender do resultado da outra. Assim como em um pipeline unico, ou o compilador deve 
garantir que essa situagao acontega (isto e, o hardware nao verifica e da resultados incorretos se as ins¬ 
trugoes nao forem compatlveis), ou os conflitos deverao ser detectados e eliminados durante a execugao 
usando hardware extra. 


Figura 2.5 Pipelines duplos de cinco estagios com uma unidade de busca de instrucao em comum. 


SI S2 S3 S4 S5 



Embora pipelines , simples ou duplos, sejam usados em sua maioria em maquinas RISC (o 386 e seus 
antecessores nao tinham nenhum), a partir do 486 a Intel comegou a acrescentar pipelines de dados em 
suas CPUs. O 486 tinha um pipeline e o Pentium original tinha pipelines de cinco estagios mais ou menos 
como os da Figura 2.5, embora a exata divisao do trabalho entre os estagios 2 e 3 (denominados decode-1 e 
decode-2) era ligeiramente diferente do que em nosso exemplo. O pipeline principal, denominado pipeline u, 
podia executar uma instrugao Pentium qualquer. O segundo, denominado pipeline v, podia executar apenas 
instrugoes com numeros inteiros (e tambem uma instrugao simples de ponto flutuante - FXCH). 

Regras fixas determinavam se um par de instrugoes era compatlvel e, portanto, se elas podiam ser exe- 
cutadas em paralelo. Se as instrugoes em um par nao fossem simples o suficiente ou se fossem incompatlveis, 
somente a primeira era executada (no pipeline u). A segunda era retida para fazer par com a instrugao seguin- 
te. Instrugoes eram sempre executadas em ordem. Assim, os compiladores especlficos para Pentium que 
produziam pares compatlveis podiam produzir programas de execugao mais rapidos do que compiladores 
mais antigos. Medigoes mostraram que um codigo de execugao Pentium otimizado para ele era exatamente 
duas vezes mais rapido para programas de inteiros do que um 486 que executava a mesma velocidade de 
clock (Pountain, 1993). Esse ganho podia ser atribuldo inteiramente ao segundo pipeline. 

Passar para quatro pipelines era conceblvel, mas exigiria duplicar muito hardware (cientistas da compu- 
tagao, ao contrario de especialistas em folclore, nao acreditam no numero tres). Em vez disso, uma aborda- 
gem diferente e utilizada em CPUs de topo de linha. A ideia basica e ter apenas um unico pipeline , mas lhe 
dar varias unidades funcionais, conforme mostra a Figura 2.6. Por exemplo, a arquitetura Intel Core tern uma 
estrutura semelhante a dessa figura, que sera discutida no Capltulo 4. O termo arquitetura superescalar foi 
cunhado para essa tecnica em 1987 (Agerwala e Cocke, 1987). Entretanto, suas raizes remontam a mais de 
40 anos, ao computador CDC 6600. O 6600 buscava uma instrugao a cada 100 ns e a passava para uma das 
10 unidades funcionais para execugao paralela enquanto a CPU sala em busca da proxima instrugao. 
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Figura 2.6 Processador superescalar com cinco unidades funcionais. 


S4 



A definigao de “superescalar” evoluiu um pouco ao longo do tempo. Agora, ela e usada para descrever 
processadores que emitem multiplas instrugoes - frequentemente, quatro ou seis - em um unico ciclo de 
clock. Claro que uma CPU superescalar deve ter varias unidades funcionais para passar todas essas instru¬ 
goes. Uma vez que, em geral, os processadores superescalares tern um so pipeline , tendem a ser parecidos 
com os da Figura 2.6. 

Usando essa definigao, o 6600 nao era tecnicamente um computador superescalar, pois emitia apenas uma 
instrugao por ciclo. Todavia, o efeito era quase o mesmo: instrugoes eram terminadas em uma taxa muito mais alta 
do que podiam ser executadas. A diferenga conceitual entre uma CPU com um clock de 100 ns que executa uma 
instrugao a cada ciclo para um grupo de unidades funcionais e uma CPU com um clock de 400 ns que executa 
quatro instrugoes por ciclo para o mesmo grupo de unidades funcionais e muito pequena. Em ambos os casos, 
a ideia fundamental e que a taxa final e muito mais alta do que a taxa de execugao, sendo a carga de trabalho 
distribulda entre um conjunto de unidades funcionais. 

Impllcito a ideia de um processador superescalar e que o estagio S3 pode emitir instrugoes com rapidez 
muito maior do que o estagio S4 e capaz de executa-las. Se o estagio S3 executasse uma instrugao a cada 10 ns 
e todas as unidades funcionais pudessem realizar seu trabalho em 10 ns, nunca mais do que uma unidade 
estaria ocupada ao mesmo tempo, o que negaria todo o racioclnio. Na verdade, grande parte das unidades fun¬ 
cionais no estagio 4 leva um tempo bem maior do que um ciclo de clock para executar, decerto as que acessam 
memoria ou efetuam aritmetica de ponto flutuante. Como pode ser visto na figura, e posslvel ter varias ULAs 
no estagio S4. 

2.1.6 Paralelismo no nivel do processador 

A demanda por computadores cada vez mais rapidos parece ser insaciavel. Astronomos querem simular o 
que aconteceu no primeiro microssegundo apos o Big Bang , economistas querem modelar a economia mundial e 
adolescentes querem se divertir com jogos multimldia em 3D com seus amigos virtuais pela Internet. Embora as 
CPUs estejam cada vez mais rapidas, havera um momento em que elas terao problemas com a velocidade da luz, 
que provavelmente permanecera a 20 cm/nanossegundo em fio de cobre ou fibra otica, nao importando o grau 
de inteligencia dos engenheiros da Intel Chips mais velozes tambem produzem mais calor, cuja dissipagao e um 
problema. De fato, a dificuldade para se livrar do calor produzido e o principal motivo pelo qual as velocidades 
de clock da CPU se estagnaram na ultima decada. 
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Paralelismo no nlvel de instrugao ajuda um pouco, mas pipelining e operagao superescalar raramente rendem 
mais do que um fa tor de cinco ou dez. Para obter ganhos de 50, 100 ou mais, a unica maneira e projetar compu¬ 
tadores com varias CPUs; portanto, agora vamos ver como alguns deles sao organizados. 

• Computadores paralelos 

Um numero substancial de problemas em domlnios de calculo como ciencias flsicas, engenharia e graficos de 
computador envolve lagos e matrizes, ou entao tern estrutura de alta regularidade. Muitas vezes, os mesmos calcu- 
los sao efetuados em muitos conjuntos diferentes de dados ao mesmo tempo. A regularidade e a estrutura desses 
programas os tornam alvos especialmente faceis para aceleragao por meio de execugao paralela. Ha dois metodos 
que tern sido usados para executar esses programas altamente regulares de modo rapido e eficaz: processadores 
SIMD e processadores vetoriais. Embora esses dois esquemas guardem notaveis semelhangas na maioria de seus 
aspectos, por ironia o primeiro deles e considerado um computador paralelo, enquanto o segundo e considerado 
uma extensao de um processador unico. 

Computadores paralelos de dados encontraram muitas aplicagoes bem-sucedidas como consequencia de 
sua notavel eficiencia. Eles sao capazes de produzir poder de computagao significativo com menos transis- 
tores do que os metodos altemativos. Gordon Moore (da lei de Moore) observou que o sillcio custa cerca de 1 bilhao 
de dolares por acre (4.047 m 2 ). Assim, quanto mais poder de computagao puder ser espremido desse acre de 
sillcio, mais dinheiro uma empresa de computador podera obter vendendo sillcio. Os processadores paralelos 
de dados sao um dos meios mais eficientes de espremer o desempenho do sillcio. Como todos os processado¬ 
res estao rodando a mesma instrugao, o sistema so precisa de um “cerebro” controlando o computador. Em 
consequencia, o processador so precisa de um estagio de busca, um estagio de decodificagao e um conjunto 
de logica de controle. Essa e uma enorme economia no sillcio, que da aos computadores paralelos uma grande 
vantagem sobre outros processadores, desde que o software que eles estejam rodando seja altamente regular, 
com bastante paralelismo. 

Um processador SIMD (Single Instruction-stream Multiple Data-stream, ou fluxo unico de instrugoes, 
fluxo multiplo de dados) consiste em um grande numero de processadores identicos que efetuam a mesma 
sequencia de instrugoes sobre diferentes conjuntos de dados. O primeiro processador SIMD do mundo foi o 
ILLIAC IV da Universidade de Illinois (Bouknight et al., 1972). O projeto original do ILLIAC IV consistia em qua- 
tro quadrantes, cada um deles com uma grade quadrada de 8 x 8 elementos de processador/memoria. Uma unica 
unidade de controle por quadrante transmitia uma unica instrugao a todos os processadores, que era executada 
no mesmo passo por todos eles, cada um usando seus proprios dados de sua propria memoria. Por causa de um 
excesso de custo, somente um quadrante de 50 megaflops (milhoes de operagoes de ponto flutuante por segun¬ 
do) foi construldo; se a construgao da maquina inteira de 1 gigaflop tivesse sido conclulda, ela teria duplicado a 
capacidade de computagao do mundo inteiro. 

As modernas unidades de processamento de graficos (GPUs) contam bastante com o processamento SIMD 
para fornecer poder computacional macigo com poucos transistores. O processamento de graficos foi apropriado 
para processadores SIMD porque a maioria dos algoritmos e altamente regular, com operagoes repetidas sobre 
pixels, vertices, texturas e arestas. A Figura 2.7 mostra o processador SIMD no nucleo da GPU Fermi da Nvidia. 
A GPU Fermi contem ate 16 multiprocessadores de fluxo (com memoria compartilhada - SM) SIMD, com cada 
multiprocessador contendo 32 processadores SIMD. A cada ciclo, o escalonador seleciona dois threads para 
executar no processador SIMD. A proxima instrugao de cada thread e entao executada em ate 16 processadores 
SIMD, embora possivelmente menos se nao houver paralelismo de dados suficiente. Se cada thread for capaz de 
realizar 16 operagoes por ciclo, um nucleo GPU Fermi totalmente carregado com 32 multiprocessadores realizara 
incrlveis 512 operagoes por ciclo. Esse e um feito impressionante, considerando que uma CPU quad-core de uso 
geral com tamanho semelhante lutaria para conseguir 1/32 desse processamento. 
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Figura 2.7 0 nucleo SIMD da unidade de processamento de graficos Fermi. 



Para um programador, um processador vetorial se parece muito com um processador SIMD. Assim como 
um processador SIMD, ele e muito eficiente para executar uma sequencia de operagoes em pares de elementos 
de dados. Porem, diferente de um processador SIMD, todas as operagoes de adigao sao efetuadas em uma unica 
unidade funcional, de alto grau de paralelismo. A Cray Research, empresa fundada por Seymour Cray, produziu 
muitos processadores vetoriais, comegando com o Cray-1 em 1974 e continuando ate os modelos atuais. 

Processadores SIMD, bem como processadores vetoriais, trabalham com matrizes de dados. Ambos execu- 
tam instrugoes unicas que, por exemplo, somam os elementos aos pares para dois vetores. Porem, enquanto o 
processador SIMD faz isso com tantos somadores quantos forem os elementos do vetor, o processador vetorial 
tern o conceito de um registrador vetorial, que consiste em um conjunto de registradores convencionais que 
podem ser carregados com base na memoria em uma unica instrugao que, na verdade, os carrega serialmente 
com base na memoria. Entao, uma instrugao de adigao vetorial efetua as adigoes a partir dos elementos de dois 
desses vetores, alimentando-os em um somador com paralelismo (pipelined) com base em dois registradores 
vetoriais. O resultado do somador e outro vetor, que pode ser armazenado em um registrador vetorial ou usado 
diretamente como um operando para outra operagao vetorial. As instrugoes SSE (Streaming SIMD Extension) 
disponlveis na arquitetura Intel Core utilizam esse modelo de execugao para agilizar o calculo altamente 
regular, como multimldia e software cientlfico. Nesse aspecto particular, o ILLIAC IV e um dos ancestrais da 
arquitetura Intel Core. 









































































































































































56 


Organizacao estruturada de computadores 


• Multiprocessadores 

Os elementos de processamento em um processador SIMD nao sao CPUs independentes, uma vez que ha 
uma so unidade de controle compartilhada por todos eles. Nosso primeiro sistema paralelo com CPUs totalmen- 
te desenvolvidas e o multiprocessador, um sistema com mais de uma CPU que compartilha uma memoria em 
comum, como um grupo de pessoas que, dentro de uma sala de aula, compartilha um quadro em comum. Uma 
vez que cada CPU pode ler ou escrever em qualquer parte da memoria, elas devem se coordenar (em software) 
para evitar que uma atrapalhe a outra. Quando duas ou mais CPUs tern a capacidade de interagir de perto, como 
e o caso dos multiprocessadores, diz-se que elas sao fortemente acopladas. 

Ha varios esquemas de implementagao posslveis. O mais simples e um barramento unico com varias CPUs e 
uma memoria, todas ligadas nele. Um diagrama desse tipo de multiprocessador de barramento unico e mostrado 
na Figura 2.8(a). 


Figura 2.8 (a) Multiprocessador de barramento unico. (b) Multicomputador com memorias locais. 


Memorias locais 



Barramento Barramento 


(a) 


(b) 


Nao e preciso muita imaginagao para perceber que, com um grande numero de processadores velozes ten- 
tando acessar a memoria pelo mesmo barramento, surgirao conflitos. Projetistas de multiprocessadores apresen- 
taram varios esquemas para reduzir essa disputa e melhorar o desempenho. Um desses esquemas, mostrado na 
Figura 2.8(b), da a cada processador um pouco de memoria local so dele, que nao e acesslvel para os outros. Essa 
memoria pode ser usada para o codigo de programa e para os itens de dados que nao precisam ser compartilhados. 
O acesso a essa memoria privada nao usa o barramento principal, o que reduz muito o trafego no barramento. 
Outros esquemas (por exemplo, caching - veja mais adiante) tambem sao posslveis. 

Multiprocessadores tern a vantagem sobre outros tipos de computadores paralelos: e facil trabalhar com o 
modelo de programagao de uma unica memoria compartilhada. Por exemplo, imagine um programa que procura 
celulas cancerosas na foto de algum tecido, tirada por um microscopio. A fotografia digitalizada poderia ser man- 
tida na memoria em comum, sendo cada processador designado para cagar essas celulas em alguma regiao. Uma 
vez que cada processador tern acesso a toda a memoria, estudar a celula que comega em sua regiao designada mas 
atravessa a fronteira da proxima regiao nao e problema. 

• Multicomputadores 

Embora seja um tanto facil construir multiprocessadores com um numero modesto de processadores 
(< 256), construir grandes e surpreendentemente diflcil. A dificuldade esta em conectar todos os processado¬ 
res a memoria. Para evitar esses problemas, muitos projetistas simplesmente abandonaram a ideia de ter uma 
memoria compartilhada e passaram a construir sistemas que consistissem em grandes numeros de computa¬ 
dores interconectados, cada um com sua propria memoria privada, mas nenhuma em comum. Esses sistemas 
sao denominados multicomputadores. Costuma-se dizer que as CPUs de um multicomputador sao fracamente 
acopladas, para contrasta-las com as CPUs fortemente acopladas de um multiprocessador. 
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As CPUs de um multicomputador se comunicam enviando mensagens umas as outras, mais ou menos como 
enviar e-mails, porem, com muito mais rapidez. Em sistemas grandes, nao e pratico ter cada computador liga- 
do a todos os outros, portanto, sao usadas topologias como malhas 2D e 3D, arvores e aneis. O resultado e que 
mensagens de um computador para outro muitas vezes passam por um ou mais computadores ou comutadores 
(chaves) intermediarios para ir da fonte ate o destino. Nao obstante, podem-se conseguir tempos de transmissao 
de mensagem da ordem de alguns microssegundos sem muita dificuldade. Multicomputadores com mais de 250 
mil CPUs, como o Blue Gene/P da IBM, ja foram construldos. 

Uma vez que multiprocessadores sao mais faceis de programar e multicomputadores sao mais faceis de cons- 
truir, ha muita pesquisa sobre projetos de sistemas hlbridos que combinam as boas propriedades de cada um. 
Esses computadores tentam apresentar a ilusao de memoria compartilhada sem bancar a despesa de realmente 
construl-la. Falaremos mais de multiprocessadores e multicomputadores no Capitulo 8. 


2.2 Memoria primaria 

A memoria e a parte do computador onde sao armazenados programas e dados. Alguns cientistas da com- 
putagao (em especial, os britanicos) usam o termo armazem ou armazenagem em vez de memoria, se bem que 
o termo “armazenagem” esta sendo usado cada vez mais para a armazenagem em disco. Sem uma memoria da 
qual os processadores possam ler e na qual possam gravar, ou escrever, informagoes, nao haveria computadores 
digitais com programas armazenados. 

2.2.1 Bits 

A unidade basica de memoria e dlgito binario, denominado bit. Um bit pode conter um 0 ou um 1. E a 
unidade mais simples posslvel. (Um dispositivo capaz de armazenar somente zeros dificilmente poderia formar a 
base de um sistema de memoria; sao necessarios pelo menos dois valores.) 

As pessoas costumam dizer que computadores usam aritmetica binaria porque ela e “eficiente”. O que elas 
querem dizer, embora quase nunca percebam, e que informagoes digitais podem ser armazenadas distinguindo 
entre valores diferentes de alguma quantidade flsica contlnua, tal como tensao ou corrente eletrica. Quanto maior 
for o numero de valores que precisam ser distinguidos, menores serao as separagoes entre valores adjacentes, e 
menos confiavel sera a memoria. O sistema numerico binario requer a distingao entre apenas dois valores. Por 
conseguinte, e o metodo mais confiavel para codificar informagoes digitais. Se voce nao estiver familiarizado com 
numeros binarios, consulte o Apendice A. 

Ha empresas que anunciam que seus computadores tern aritmetica decimal, bem como binaria, como e o 
caso da IBM e seus grandes mainframes. Essa faganha e realizada usando-se 4 bits para armazenar um dlgito 
decimal que utiliza um codigo denominado BCD (Binary Coded Decimal - decimal codificado em binario). 
Quatro bits oferecem 16 combinagoes, usadas para os 10 dlgitos de 0 a 9, mas seis combinagoes nao sao usa¬ 
das. O numero 1.944 e mostrado a seguir codificado em formato decimal e em formato binario puro, usando 
16 bits em cada exemplo: 

decimal: 0001 1001 0100 0100 binario: 0000011110011000 

Dezesseis bits no formato decimal podem armazenar os numeros de 0 a 9999, dando somente 10 mil com¬ 
binagoes, ao passo que um numero binario puro de 16 bits pode armazenar 65.536 combinagoes diferentes. Por 
essa razao, as pessoas dizem que o binario e mais eficiente. 

No entanto, considere o que aconteceria se algum jovem e brilhante engenheiro eletrico inventasse um dis¬ 
positivo eletronico de alta confiabilidade que pudesse armazenar diretamente os dlgitos de 0 a 9 dividindo a regiao 
de 0 a 10 volts em 10 intervalos. Quatro desses dispositivos poderiam armazenar qualquer numero decimal de 0 a 
9999. Quatro desses dispositivos dariam 10 mil combinagoes. Eles tambem poderiam ser usados para armazenar 
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numeros binarios usando somente 0 e 1, caso em que quatro deles so poderiam armazenar 16 combinagoes. Com 
tais dispositivos, o sistema decimal e obviamente mais eficiente. 

2.2.2 Enderecos de memoria 

Memorias consistem em uma quantidade de celulas (ou locais), cada uma das quais podendo armazenar uma 
informagao. Cada celula tern um numero, denominado seu enderego, pelo qual os pro gramas podem se referir a 
ela. Se a memoria tiver n celulas, elas terao enderegos de 0 a n - 1. Todas as celulas em uma memoria contem o 
mesmo numero de bits. Se uma celula consistir em k bits, ela pode conter quaisquer das 2 k diferentes combina¬ 
goes de bits. A Figura 2.9 mostra tres organizagoes diferentes para uma memoria de 96 bits. Note que as celulas 
adjacentes tern enderegos consecutivos (por definigao). 


Figura 2.9 


Tres maneiras de organizar uma memoria de 96 bits. 
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Computadores que usam o sistema de numeros binarios (incluindo notagao octal ou hexadecimal para 
numeros binarios) expressam enderegos de memoria como numeros binarios. Se um enderego tiver m bits, o 
numero maximo de celulas enderegaveis e 2 m . Por exemplo, um enderego usado para referenciar a memoria da 
Figura 2.9(a) precisa de no mlnimo 4 bits para expressar todos os numeros de 0 a 11. Contudo, um enderego 
de 3 bits e suficiente para as figuras 2.9(b) e (c). O numero de bits no enderego determina o numero maximo 
de celulas diretamente enderegaveis na memoria e e independente do numero de bits por celula. Uma memoria 
com 2 12 celulas de 8 bits cada e uma memoria com 2 12 celulas de 64 bits cada precisam de enderegos de 12 bits. 

A Figura 2.10 mostra o numero de bits por celula para alguns computadores que ja foram vendidos comer- 
cialmente. 

A significance da celula e que ela e a menor unidade enderegavel. Ha poucos anos, praticamente todos os fabri¬ 
cates de computadores padronizaram celulas de 8 bits, que e denominada um byte. O termo octeto tambem e usado. 
Bytes sao agrupados em palavras. Um computador com uma palavra de 32 bits tern 4 bytes/palavra, enquanto um 
computador com uma palavra de 64 bits tern 8 bytes/palavra. A significance de uma palavra e que grande parte das 
instrugoes efetua operagoes com palavras inteiras, por exemplo, somando duas palavras. Assim, uma maquina de 32 
bits tera registradores de 32 bits e instrugoes para manipular palavras de 32 bits, enquanto uma maquina de 64 bits 
tera registradores de 64 bits e instrugoes para movimentar, somar, subtrair e, em geral, manipular palavras de 64 bits. 
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Figura 2.10 


Numero de bits por celula para alguns computadores comerciais historicamente interessantes. 


Computador 

Bits/celula j 

Burroughs B1700 

1 

IBM PC 

8 

DEC PDP-8 

12 

IBM 1130 

16 

DEC PDP-15 

18 

XDS 940 

24 

Electrologica X8 

27 

XDS Sigma 9 

32 

Honeywell 6180 

36 

CDC 3600 

48 

CDC Cyber 
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2.2.3 Ordenacao de bytes 

Os bytes em uma palavra podem ser numerados da esquerda para a direita ou da direita para a esquerda. A 
princlpio, essa opgao pode parecer sem importancia, mas, como veremos em breve, ela tern consideraveis impli- 
cagoes. A Figura 2.11(a) retrata parte da memoria de um computador de 32 bits cujos bytes sao numerados da 
esquerda para a direita, tal como o SPARC ou os grandes mainframes da IBM. A Figura 2.11(b) da uma represen- 
tagao analoga de um computador de 32 bits que usa uma numeragao da direita para a esquerda, como a famllia 
Intel. O primeiro sistema, no qual a numeragao comega na ordem “grande”, isto e, na ordem alta, e denominado 
computador big endian, ao contrario do little endian da Figura 2.11(b). Esses termos se devem a Jonathan Swift, 
cujo livro As viagens de Gulliver satirizava os politicos que discutiam por que uns eram a favor de quebrar ovos 
no lado grande ( big end ) e outros achavam que deviam ser quebrados no lado pequeno (little end). O termo foi 
empregado pela primeira vez na arquitetura de computadores em um interessante artigo de Cohen (1981). 


Figura 2.11 (a) Memoria big endian, (b) Memoria little endian. 
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E importante entender que, tanto no sistema big endian como no little endian , um inteiro de 32 bits com o 
valor numerico de, digamos, 6 e representado pelos bits 110 nos tres bits mais a direita (baixa ordem) de uma 
palavra e os zeros nos 29 bits da esquerda. No esquema big endian , os bits 110 estao no byte 3 (ou 7, ou 11 etc.), 
enquanto no esquema little endian eles estao no byte 0 (ou 4, ou 8 etc.). Em ambos os casos, a palavra que contem 
esses inteiros tern enderego 0. 









































60 


Organizacao estruturada de computadores 


Se os computadores somente armazenassem inteiros, nao haveria nenhum problema. Contudo, muitas apli- 
cagoes requerem uma mistura de inteiros, cadeias de caracteres e outros tipos de dados. Considere, por exemplo, 
um simples registro de pessoal composto de uma cadeia (nome do empregado) e dois inteiros (idade e numero do 
departamento). A cadeia e encerrada com 1 ou mais bytes de valor 0 para completar uma palavra. Para o registro 
“Jim Smith, idade 21, departamento 260 (lx 256 + 4 = 260)”, a representagao big endian e mostrada na Figura 
2.12(a) e a representagao little endian e mostrada na Figura 2.12(b). 


Figura 2.12 (a) Registro de pessoal para uma maquina big endian, (b) 0 aiesmo registro para uma maquina little endian, (c) Resultado 
da transference do registro de uma maquina big endian para uma little endian, (d) Resultado da troca de bytes (c). 
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Ambas as representagoes sao boas e internamente consistentes. Os problemas comegam quando uma das 
maquinas tenta enviar um registro a outra por uma rede. Vamos supor que a big endian envie o registro a little 
endian um byte por vez, comegando com o byte 0 e terminando com o byte 19. (Vamos ser otimistas e supor que 
os bits dos bytes nao sejam invertidos pela transmissao porque, assim como esta, ja temos problemas suficientes.) 
Portanto, o byte 0 da big endian entra na memoria da little endian no byte 0 e assim por diante, como mostra a 
Figura 2.12(c). 

Quando a little endian tenta imprimir o nome, ela funciona bem, mas a idade sai como 21 x 2 24 e o depar¬ 
tamento tambem fica errado. Essa situagao surge porque a transmissao inverteu a ordem dos caracteres em uma 
palavra, como deveria, mas tambem inverteu os bytes de um inteiro, o que nao deveria. 

Uma solugao obvia e fazer o software inverter os bytes de uma palavra apos te-la copiado. Isso leva a Figura 
2.12(d), que faz os dois inteiros se salrem bem, mas transforma a cadeia em “MIJTIMS” e deixa o “H” perdido 
no meio do nada. Essa inversao da cadeia ocorre porque, ao ler a cadeia, o computador le primeiro o byte 0 (um 
espago), em seguida o byte 1 (M), e assim por diante. 

Nao ha nenhuma solugao simples. Um modo que funciona - porem, ineficiente - e incluir um cabegalho 
na frente de cada item de dado, que informa qual tipo de dado vem a seguir (cadeia, inteiro ou outro) e qual e 
seu comprimento. Isso permite que o destinatario efetue apenas as conversoes necessarias. De qualquer modo, e 
preciso deixar claro que a falta de um padrao para a ordenagao de bytes e um grande aborrecimento quando ha 
troca de dados entre maquinas diferentes. 

2.2.4 Codigos de correcao de erro 

Memorias de computador podem cometer erros de vez em quando devido a picos de tensao na linha ele- 
trica, raios cosmicos ou outras causas. Para se resguardar contra esses erros, algumas memorias usam codigos de 
detecgao de erros ou codigos de corregao de erros. Quando sao usados, bits extras sao adicionados a cada palavra 
de memoria de modo especial. Quando uma palavra e lida na memoria, os bits extras sao verificados para ver se 
ocorreu um erro. 

Para entender como os erros podem ser manipulados, e preciso ver de perto o que e, na realidade, um erro. 
Suponha que uma palavra de memoria consista em m bits de dados, aos quais serao adicionados r bits redundantes, 
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ou de verificagao. Seja o comprimento total n (isto e, n = m + r). Uma unidade de n bits que contem m dados e r 
bits de verificagao costuma ser denominada uma palavra de codigo de n bits. 

Dadas duas palavras de codigo quaisquer, por exemplo, 10001001 e 10110001, e posslvel determinar quan- 
tos bits correspondentes sao diferentes. Nesse caso, 3 bits sao diferentes. Para saber quantos bits sao diferentes, 
basta calcular o EXCLUSIVE OR (OU EXCLUSIVO) booleano bit por bit das duas palavras de codigo e contar o 
numero de bits 1 no resultado. O numero de posigoes de bit nas quais as duas palavras de codigo diferem e deno- 
minado distancia de Hamming (Hamming, 1950). Sua principal significance e que, se duas palavras de codigo 
estiverem separadas por uma distancia de Hamming d, sera preciso d erros de unico bit para converter uma na 
outra. Por exemplo, as palavras de codigo 11110001 e 00110000 estao a uma distancia de Hamming 3 porque e 
preciso 3 erros de unico bit para converter uma na outra. 

Com uma palavra de memoria de m bits, todos os 2 m padroes de bits sao validos, mas, devido ao modo como 
os bits de verificagao sao computados, somente 2 m das 2 n palavras de codigo sao validas. Se uma leitura de memo¬ 
ria aparecer com uma palavra de codigo invalida, o computador sabe que ocorreu um erro de memoria. Dado o 
algoritmo para calcular os bits de verificagao, e posslvel montar uma lista completa das palavras de codigo validas 
e, por meio dela, achar as duas palavras de codigo cuja distancia de Hamming seja minima. Essa distancia e a 
distancia de Hamming do codigo completo. 

As propriedades de detecgao de erro e corregao de erro de um codigo dependem de sua distancia de 
Hamming. Para detectar d erros de unico bit, voce precisa de um codigo de distancia d + 1 porque, com tal 
codigo, nao existe nenhum modo que permita que d erros de unico bit mudem uma palavra de codigo valida 
para outra. De modo semelhante, para corrigir erros de unico bit, voce precisa de um codigo de distancia 2d + 
1 porque, desse modo, as palavras de codigo validas estao tao distantes uma da outra que, mesmo que d mude, 
a palavra de codigo original ainda estara mais perto do que qualquer outra, portanto, ela pode ser unicamente 
determinada. 

Como um exemplo simples de um codigo de detecgao de erro, considere um codigo em que um unico bit 
de paridade e anexado aos dados. O bit de paridade e escolhido de modo que o numero de bits 1 na palavra de 
codigo seja par (ou Impar). Tal codigo tern uma distancia 2, uma vez que qualquer erro de bit unico produz uma 
palavra de codigo com paridade errada. Ou seja, ele precisa de dois erros de unico bit para ir de uma palavra de 
codigo valida ate outra palavra de codigo valida. Ele pode ser usado para detectar erros isolados. Sempre que uma 
palavra que contenha paridade errada for lida da memoria, uma condigao de erro e sinalizada. O programa nao 
pode continuar, mas, ao menos, nenhum resultado errado e calculado. 

Como um exemplo simples de um codigo de corregao de erros, considere um codigo que tenha apenas quatro 
palavras de codigo validas: 

0000000000, 0000011111, 1111100000 e 1111111111 

Esse codigo tern uma distancia 5, o que significa que pode corrigir erros duplos. Se a palavra de codigo 
0000000111 chegar, o destinatario sabe que a original deve ter sido 0000011111 (se nao houver mais do 
que um duplo erro). Contudo, se um erro triplo mudar 0000000000 para 0000000111, o erro nao pode ser 
corrigido. 

Imagine que queremos projetar um codigo com m bits de dados e r bits de verificagao que permitira que 
todos os erros de bits unicos sejam corrigidos. Cada uma das 2 m palavras de memoria validas tern n palavras de 
codigo invalidas a uma distancia 1. Essas palavras de codigo invalidas sao formadas sistematicamente invertendo 
cada um dos n bits na palavra de codigo de n bits formada com base nela. Assim, cada uma das 2 m palavras de 
memoria validas requer n + 1 padroes de bits dedicados a ela (para os n posslveis erros e padrao de corregao). 
Uma vez que o numero total de padroes de bits e 2 n , temos de ter (n + l)2 m < 2 n . Usando n = m + r, esse requisito 
se torna (m + r + 1) < 2 r . Dado m, isso impoe um limite inferior ao numero de bits de verificagao necessarios para 
corrigir erros unicos. A Figura 2.13 mostra o numero de bits de verificagao requeridos por varios tamanhos de 
palavras de memoria. 
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Figura 2.13 


Numero de bits de verificacao para um codigo que pode corrigir um erro unico. 



Esse limite inferior teorico pode ser conseguido usando um metodo criado por Richard Hamming (1950). 
Antes de analisar o algoritmo de Hamming, vamos examinar uma representagao grafica simples que ilustra com 
clareza a ideia de um codigo de corregao de erros para palavras de 4 bits. O diagrama de Venn da Figura 2.14(a) 
content tres clrculos, A, B e C, que juntos formam sete regioes. Como exemplo, vamos codificar a palavra de 
memoria de 4 bits 1100 nas regioes AB, ABC, AC e BC, 1 bit por regiao (em ordem alfabetica). Essa codificagao 
e mostrada na Figura 2.14(a). 


Figura 2.14 (a) Codificacao de 1100. (b) Paridade par adicionada. (c) Erro em AC. 



Em seguida, acrescentamos um bit de paridade a cada uma dessas tres regioes vazias para produzir pari¬ 
dade par, como ilustrado na Figura 2.14(b). Por definigao, agora a soma dos bits em cada um dos tres clrculos, 
A, B e C, e um numero par. No circulo A, temos os quatro numeros 0, 0, 1 e 1, cuja soma total e 2, um nume¬ 
ro par. No circulo B, os numeros sao 1, 1, 0 e 0, cuja soma total e 2, um numero par. Por fim, no circulo C, 
temos a mesma coisa. Nesse exemplo, por acaso todos os clrculos sao iguais, mas as somas de 0 e 4 tambem 
sao posslveis em outros exemplos. Essa figura corresponde a uma palavra de codigo com 4 bits de dados e 3 
bits de paridade. 

Agora, suponha que algo de ruim acontega com o bit na regiao AC e ele mude de 0 para 1, conforme mostra 
a Figura 2.14(c). Agora, o computador pode ver que os clrculos A e C tern a paridade errada (Impar). A unica 
mudanga de bit individual que pode corrigi-los e restaurar AC para 0, o que corrige o erro. Desse modo, o com¬ 
putador pode corrigir automaticamente erros de memoria em unico bit. 

Agora, vamos ver como o algoritmo de Hamming pode ser usado para construir codigos de corregao de erros 
para qualquer tamanho de palavra de memoria. Em um codigo de Hamming, sao acrescentados r bits de paridade 
a uma palavra de m bits, formando uma nova palavra de comprimento m + r bits. Os bits sao numerados come- 
gando com 1, nao com 0, sendo que o bit 1 e o da extrema esquerda (ordem alta). Todos os bits cujo numero de 
bit for uma potencia de 2 sao de paridade; os restantes sao usados para dados. Por exemplo, com uma palavra 
de 16 bits, sao adicionados 5 bits de paridade. Os bits 1, 2, 4, 8 e 16 sao bits de paridade e todos os restantes sao 
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bits de dados. No total, a palavra de memoria tem 21 bits (16 de dados, 5 de paridade). Neste exemplo, usaremos 
(arbitrariamente) a paridade par. 

Cada bit de paridade verifica posigoes especlficas de bits; o bit de paridade e estabelecido de modo que o 
numero de Is nas posigoes verificadas seja par. As posigoes de bits verificadas pelos bits de paridade sao 

Bit 1 verifica bits 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21. 

Bit 2 verifica bits 2, 3, 6, 7, 10, 11, 14, 15, 18, 19. 

Bit 4 verifica bits 4, 5, 6, 7, 12, 13, 14, 15, 20, 21. 

Bit 8 verifica bits 8, 9, 10, 11, 12, 13, 14, 15. 

Bit 16 verifica bits 16, 17, 18, 19, 20, 21. 


Em geral, o bit b e verificado pelos bits b v b v ..., b tais que b l + b 2 + ... + b = b. Por exemplo, o bit 5 e 
verificado pelos bits 1 e 4 porque 1 + 4 = 5. O bit 6 e verificado pelos bits 2 e 4 porque 2 + 4 = 6 e assim por 
diante. 

A Figura 2.15 mostra a construgao de um codigo de Hamming para a palavra de memoria de 16 bits 
1111000010101110. A palavra de codigo de 21 bits e 001011100000101101110. Para ver como funciona a 
corregao de erros, considere o que aconteceria se o bit 5 fosse invertido por uma sobrecarga eletrica na linha de 
forga. A nova palavra de codigo seria 001001100000101101110 em vez de 001011100000101101110. Os 5 bits 
de paridade serao verificados com os seguintes resultados: 


Bit de paridade 1 incorreto (1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21 contem cinco Is). 
Bit de paridade 2 correto (2, 3, 6, 7, 10, 11, 14, 15, 18, 19 contem seis Is). 

Bit de paridade 4 incorreto (4, 5, 6, 7, 12, 13, 14, 15, 20, 21 contem cinco Is). 
Bit de paridade 8 correto (8, 9, 10, 11, 12, 13, 14, 15 contem dois Is). 

Bit de paridade 16 correto (16, 17, 18, 19, 20, 21 contem quatro Is). 


* Figura 2.15 Construcao do codigo de Hamming para a palavra de memoria 1111000010101110 adicionando 5 bits de verificacao aos 

16 bits de dados. 

Palavra de memoria 1111000010101110 

[olfol 1 [ol 1 1 1 ro] 0 0 0 0 1 0 1 m 0 1 1 1 0 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 


Bits de 
paridade 


O numero total de Is nos bits 1, 3, 5, 7, 9, 11, 13, 15, 17, 19 e 21 deve ser par porque esta sendo usada a 
paridade par. O bit incorreto deve ser um dos bits verificados pelo bit de paridade 1 - ou seja, bit 1, 3, 5, 7, 9, 
11, 13, 15, 17, 19 ou 21. O bit de paridade 4 esta incorreto, o que significa que um dos bits 4, 5, 6, 7, 12, 13, 14, 
15, 20 ou 21 esta incorreto. O erro deve ser um dos bits que esta em ambas as listas, a saber, 5, 7, 13, 15 ou 21. 
Contudo, o bit 2 esta correto, o que elimina os bits 7 e 15. De modo semelhante, o bit 8 esta correto, eliminando 
o 13. Por fim, o bit 16 esta correto, eliminando o 21. O unico que sobrou e 5, que e o bit que esta com erro. Uma 
vez que foi lido como um 1, ele deveria ser um 0. Dessa maneira, os erros podem ser corrigidos. 

Um metodo simples para achar o bit incorreto e calcular antes todos os bits de paridade. Se todos estiverem 
corretos, nao houve nenhum erro (ou entao houve mais de um). Em seguida, somar todos os bits de paridade 








64 


Organizacao estruturada de computadores 


incorretos, contando 1 para o bit 1, 2 para o bit 2, 4 para o bit 4 e assim por diante. A soma resultante e a posigao 
do bit incorreto. Por exemplo, se os bits de paridade 1 e 4 estiverem incorretos, mas 2, 8 e 16 estiverem corretos, 
o bit 5 (1 + 4) foi invertido. 

2.2.5 Memoria cache 

Historicamente, as CPUs sempre foram mais rapidas do que as memorias. Conforme memorias melhoraram 
as CPUs tambem se aperfeigoaram, mantendo o desequillbrio. Na verdade, a medida que fica posslvel colocar cada 
vez mais circuitos em um chip, os projetistas estao usando essas novas facilidades no paralelismo ( pipelining ) e em 
operagao superescalar, fazendo as CPUs ficarem ainda mais velozes. Projetistas de memoria costumam usar nova 
tecnologia para aumentar a capacidade de seus chips, e nao a velocidade, portanto, parece que os problemas estao 
piorando com o passar do tempo. Na pratica, o significado desse desequillbrio e que, apos emitir uma requisigao 
de memoria, a CPU nao obtera a palavra de que necessita por muitos ciclos de CPU. Quanto mais lenta a memo¬ 
ria, mais ciclos a CPU tera de esperar. 

Como ja destacamos, ha duas maneiras de tratar desse problema. O modo mais simples e somente iniciar 
READs (leituras) de memoria quando elas forem encontradas, mas continuar executando e bloquear a CPU se 
uma instrugao tentar usar a palavra de memoria antes de ela chegar. Quanto mais lenta a memoria, maior sera a 
frequencia desse problema e maior sera a penalidade quando isso, de fa to, ocorrer. Por exemplo, se uma instru¬ 
gao em cinco toca na memoria e o tempo de acesso a memoria for de cinco ciclos, o tempo de execugao sera o 
dobro daquele que teria sido na memoria instantanea. Mas, se o tempo de acesso for de 50 ciclos, entao o tempo 
de execugao sera elevado por um fator de 11 (5 ciclos para executar instrugoes mais 50 ciclos para esperar pela 
memoria). 

A outra solugao e ter maquinas que nao ficam bloqueadas, mas, em vez disso, exigem que o compilador 
nao gere codigo para usar palavras antes que elas tenham chegado. O problema e que e muito mais facil falar 
dessa abordagem do que executa-la. Muitas vezes, nao ha nada mais a fazer apos um LOAD (carregar), portanto, 
o compilador e forgado a inserir instrugoes NOP (nenhuma operagao), que nada mais fazem do que ocupar um 
intervalo (slot) e gastar tempo. Com efeito, essa abordagem e um bloqueio de software em vez de um bloqueio de 
hardware, mas a degradagao do desempenho e a mesma. 

Na verdade, o problema nao e tecnologico, mas economico. Os engenheiros sabem como construir memorias 
tao rapidas quanto as CPUs, mas para que executem a toda velocidade, elas tern de estar localizadas no chip da 
CPU (porque passar pelo barramento para alcangar a memoria e uma operagao muito lenta). Instalar uma memo¬ 
ria grande no chip da CPU faz com que esta fique maior e, portanto, mais cara. Ainda que o custo nao fosse uma 
questao a considerar, ha limites de tamanho para um chip de CPU. Assim, a opgao se resume a ter uma pequena 
quantidade de memoria rapida ou uma grande quantidade de memoria lenta. O que nos gostarlamos de ter e uma 
grande quantidade de memoria rapida a um prego baixo. 

O interessante e que ha tecnicas conhecidas para combinar uma pequena quantidade de memoria rapida com 
uma grande quantidade de memoria lenta para obter (quase) a velocidade da memoria rapida e a capacidade da 
memoria grande a um prego modico. A memoria pequena e rapida e denominada cache (do frances cacher , que 
significa “esconder” e se pronuncia “kesh”). Em seguida, descreveremos brevemente como as caches sao usadas e 
como funcionam. O Capltulo 4 apresenta uma descrigao mais detalhada. 

A ideia basica de uma cache e simples: as palavras de memoria usadas com mais frequencia sao mantidas na 
cache. Quando a CPU precisa de uma palavra, ela examina em primeiro lugar a cache. Somente se a palavra nao 
estiver ali e que ela recorre a memoria principal. Se uma fragao substancial das palavras estiver na cache , o tempo 
medio de acesso pode ser muito reduzido. 

Assim, o sucesso ou o fracasso depende da fragao das palavras que estao na cache. Ha anos todos sabemos 
que programas nao acessam suas memorias de forma totalmente aleatoria. Se uma dada referencia a memoria for 
para o enderego A, e provavel que a proxima estara na vizinhanga geral de A. Um exemplo simples e o proprio 
programa. Exceto quando se trata de desvios e de chamadas de procedimento, as instrugoes sao buscadas em 
localizagoes consecutivas da memoria. Alem do mais, grande parte do tempo de execugao de um programa e 
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gasto em lagos, nos quais um numero limitado de instrugoes e executado repetidas vezes. De modo semelhante, 
e provavel que um programa de manipulagao de matrizes fara muitas referencias a mesma matriz antes de passar 
para outra coisa qualquer. 

A observagao de que referencias a memoria feitas em qualquer intervalo de tempo curto tendem a usar 
apenas uma pequena fragao da memoria total e denominada princlpio da localidade, e forma a base de todos 
os sistemas de cache. A ideia geral e que, quando uma palavra for referenciada, ela e algumas de suas vizinhas 
sejam trazidas da memoria grande e lenta para a cache, de modo que, na proxima vez em que for usada, ela 
possa ser acessada rapidamente. Um arranjo comum da CPU, cache e memoria principal e ilustrado na Figura 
2.16. Se uma palavra for lida ou escrita k vezes em um curto intervalo de tempo, o computador precisara de 
1 referencia a memoria lenta e k - 1 referencias a memoria rapida. Quanto maior for k, melhor sera o desem- 
penho global. 


Figura 2.16 A localizacao logica da cache e entre a CPU e a memoria principal. Em termos fisicos, ha diversos lugares em que ela poderia 
estar localizada. 

Memoria 



Podemos formalizar esse calculo introduzindo c, o tempo de acesso a cache; m, o tempo de acesso a memoria 
principal; eh, a taxa de acerto, que e a fragao de todas as referencias que podem ser satisfeitas atraves da cache. 
Em nosso pequeno exemplo do paragrafo anterior, h = (h - l)/h. Alguns autores tambem definem a taxa de falha 
(na cache), que el - h. 

Com essas definigoes, podemos calcular o tempo de acesso medio como segue: 

tempo de acesso medio = c + (1 - h) m 

A medida que h —> 1, todas as referencias podem ser satisfeitas fora da cache e o tempo de acesso medio se 
aproxima de c. Por outro lado, a medida que h —► 0, toda vez sera necessaria uma referencia a memoria, portanto, 
o tempo de acesso se aproxima de c + m, primeiro um tempo para verificar a cache (sem sucesso) e entao um 
tempo m para fazer a referencia a memoria. Em alguns sistemas, a referencia a memoria pode ser iniciada em 
paralelo com a busca na cache , de modo que, se ocorrer uma falha na cache (cache miss), o ciclo da memoria ja 
tera sido iniciado. Contudo, essa estrategia requer que a memoria possa ser interrompida se houver uma presenga 
na cache (cache hit), o que torna a implantagao mais complicada. 

Usando o princlpio da localidade como guia, memorias principais e caches sao divididas em blocos de tama- 
nho fixo. Ao nos referirmos a esses blocos dentro da cache, eles costumam ser chamados de linhas de cache. 
Quando a busca na cache falha, toda a linha de cache e carregada da memoria principal para a cache, e nao 
apenas a palavra que se quer. Por exemplo, com uma linha de cache de 64 bytes de tamanho, uma referencia 
ao enderego de memoria 260 puxara a linha que consiste nos bytes 256 a 319 para uma linha de cache. Com 
um pouco de sorte, algumas das outras palavras na linha de cache tambem serao necessarias em breve. Esse 
tipo de operagao e mais eficiente do que buscar palavras individuals porque e mais rapido buscar k palavras de 
uma vez so do que uma palavra h vezes. Alem disso, ter entradas de cache de mais do que uma palavra significa 
que ha menor numero delas; por conseguinte, e preciso menos memoria auxiliar (overhead). Por fim, muitos 
computadores podem transferir 64 ou 128 bits em paralelo em um unico ciclo do barramento, ate mesmo em 
maquinas de 32 bits. 
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O projeto de cache e uma questao de importancia cada vez maior para CPUs de alto desempenho. Um aspec- 
toeo tamanho da cache. Quanto maior, melhor seu funcionamento, mas tambem maior e o custo. Um segundo 
aspecto e o tamanho da linha de cache. Uma cache de 16 KB pode ser dividida em ate 1.024 linhas de 16 bytes, 
2.048 linhas de 8 bytes e outras combinagoes. Um terceiro aspecto e a maneira de organizagao, isto e, como ela 
controla quais palavras de memoria estao sendo mantidas no momento. Examinaremos caches detalhadamente 
no Capltulo 4. 

Um quarto aspecto do projeto e se as instrugoes e dados sao mantidos na mesma cache ou em caches dife- 
rentes. Ter uma cache unificada (instrugoes e dados usam a mesma cache ) e um projeto mais simples e mantem 
automaticamente o equillbrio entre buscas de instrugoes e buscas de dados. No entanto, a tendencia hoje e uma 
cache dividida, com instrugoes em uma cache e dados na outra. Esse projeto tambem e denominado arquitetura 
Harvard e essa referenda volta ao passado ate o computador Mark III de Howard Aiken, que tinha memorias 
diferentes para instrugoes e dados. A forga que impele os projetistas nessa diregao e a utilizagao muito difundida 
de CPUs com paralelismo (pipelined). A unidade de busca de instrugao precisa acessar instrugoes ao mesmo 
tempo em que a unidade de busca de operandos precisa de acesso aos dados. Uma cache dividida permite acessos 
paralelos; uma cache unificada, nao. Alem disso, como as instrugoes nao sao modificadas durante a execugao, o 
conteudo da cache de instrugao nunca tern de ser escrito de volta na memoria. 

Por fim, um quinto aspecto e o numero de caches. Hoje em dia nao e incomum ter chips com uma cache 
primaria no chip, uma cache secundaria fora dele, mas no mesmo pacote do chip da CPU, e uma terceira cache ainda 
mais distante. 


2.2.6 Empacotamento e tipos de memoria 

Desde os primeiros dias da memoria de semicondutor ate o inlcio da decada 1990, a memoria era fabrica- 
da, comprada e instalada como chips unicos. As densidades dos chips iam de 1 K bits ate 1 M bits e alem, mas 
cada chip era vendido como uma unidade separada. Os primeiros PCs costumavam ter soquetes vazios nos quais 
podiam ser ligados chips de memoria adicionais, se e quando o comprador precisasse deles. 

Desde o inicio da decada de 1990, usa-se um arranjo diferente. Um grupo de chips, em geral 8 ou 16, e 
montado em uma minuscula placa de circuito impresso e vendido como uma unidade. Essa unidade e deno- 
minada SIMM (Single Inline Memory Module - modulo unico de memoria em linha) ou DIMM (Dual Inline 
Memory Module - modulo duplo de memoria em linha), dependendo se tern uma fileira de conectores de um 
so lado ou de ambos os lados da placa. Os SIMMs tern um conector de borda com 72 contatos e transferem 
32 bits por ciclo de clock. Os DIMMs em geral tern conectores de borda com 120 contatos em cada lado da 
placa, perfazendo um total de 240 contatos e transferem 64 bits por ciclo de clock. Os mais comuns hoje sao 
os DIMMs DDR3, que e a terceira versao das memorias de taxa dupla. Um exemplo tlpico de DIMM e ilustrado 
na Figura 2.17. 


Figura 2.17 Visao superior de um DIMM de 4 GB, com oito chips de 256 MB em cada lado. 0 outro lado tern a mesma aparencia. 
-«■-133 mm-► 
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Uma configuragao tlpica de DIMM poderia ter oito chips de dados com 256 MB cada. Entao, o modulo intei- 
ro conteria 2 GB. Muitos computadores tern espago para quatro modulos, o que da uma capacidade total de 8 GB 
se usarem modulos de 2 GB e mais, se usarem modulos maiores. 
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Um DIMM fisicamente menor, denominado SO-DIMM (Small Outline DIMM - DIMM pequeno perfil) 
e usado em notebooks. Pode-se adicionar um bit de paridade ou corregao de erro aos DIMMS, porem, visto 
que a taxa media de erro de um modulo e de um erro a cada dez anos, na maioria dos computadores de uso 
comum e domestico, detecgao e corregao de erros sao omitidas. 


2.3 Memoria secundaria 

Seja qual for o tamanho da memoria principal, ela sempre sera muito pequena. As pessoas sempre querem 
armazenar mais informagoes do que a memoria pode conter, ainda mais porque, a medida que a tecnologia melho- 
ra, elas comegam a pensar em armazenar coisas que antes estavam inteiramente no reino da ficgao cientlfica. Por 
exemplo, como as diretrizes orgamentarias do governo dos Estados Unidos obrigam as agendas governamentais a 
gerar sua propria receita, podemos imaginar a Biblioteca do Congresso decidindo digitalizar e vender todo o seu 
conteudo como um artigo de consumo (“Todo o conhecimento humano por apenas US$ 299,95”). Cerca de 50 
milhoes de livros, cada qual com 1 MB de texto e 1 MB de figuras comprimidas, requerem armazenagem de 10 14 
bytes ou 100 terabytes. Armazenar todos os 50 mil filmes produzidos ate agora tambem faz parte desse carnaval. 
Essa quantidade de informagao nao cabera na memoria principal, ao menos por algumas decadas. 

2.3.1 Hierarquias de memoria 

A solugao tradicional para armazenar grandes quantidades de dados e uma hierarquia de memoria, como 
ilustrada na Figura 2.18. No topo, estao os registradores da CPU, que podem ser acessados a velocidade total da 
CPU. Em seguida, vem a memoria cache, que esta na faixa de 32 KB a alguns megabytes. A memoria vem logo 
apos, hoje com tamanhos que vao de 1 GB para sistemas basicos ate centenas de gigabytes na extremidade mais 
alta. Depois, vem os discos magneticos, o atual burro de carga da armazenagem permanente. Por fim, temos fitas 
magneticas e discos opticos para armazenagem de arquivos. 

A medida que descemos na hierarquia, tres parametros aumentam. Primeiro, o tempo de acesso fica maior. 
Os registradores da CPU podem ser acessados em um nanossegundo ou menos. Memorias cache demoram um 
pequeno multiplo dos registradores da CPU. Acessos a memoria principal normalmente levam 10 nanossegundos. 
Agora, vem uma grande lacuna, porque tempos de acesso a discos sao no mlnimo 10 vezes mais lentos para discos 
em estado solido e centenas de vezes mais lentos para discos magneticos. Acessos a fitas ou discos oticos podem 
ser medidos em segundos se a mldia tiver de ser buscada e inserida no drive. 


Figura 2.18 Hierarquia de memoria de cinco niveis. 
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Segundo, a capacidade de armazenagem aumenta a medida que descemos na hierarquia. Registradores de 
CPU sao bons para, talvez, 128 bytes, caches para algumas dezenas de megabytes, memorias principals para 
alguns gigabytes, discos em estado solido para centenas de gigabytes e discos magneticos para terabytes. Fitas 
e discos opticos costumam ser mantidos off-line, portanto, sua capacidade e limitada apenas pelo orgamento 
do usuario. 

Terceiro, o numero de bits por dolar gas to aumenta descendo a hierarquia. Embora os pregos atuais mudem 
com rapidez, a memoria principal e medida em dolares/megabyte, o disco em estado solido em dolares/gigabyte 
e a armazenagem em disco magnetico e fita em centavos/gigabyte. 

Ja vimos registradores, cache e memoria principal. Nas segoes seguintes, vamos examinar os discos magneticos 
e os discos em estado solido; depois, estudaremos os discos oticos. Nao estudaremos fitas porque sao raramente 
usadas, exceto para copias de seguranga ( backup ) e, de qualquer forma, nao ha muita coisa a dizer sobre elas. 

2.3.2 Discos magneticos 

Um disco magnetico e composto de um ou mais pratos de alumlnio com um revestimento magnetizavel. 
No inlcio, esses pratos tinham ate 50 cm de diametro, mas agora tern normalmente de 3 a 9 cm, e discos para 
notebooks ja estao com menos de 3 cm e continuam encolhendo. Um cabegote de disco que contem uma bobina 
de indugao flutua logo acima da superflcie, apoiado sobre um colchao de ar. Quando uma corrente positiva ou 
negativa passa pelo cabegote, ele magnetiza a superflcie logo abaixo dele, alinhando as partlculas magneticas para 
a esquerda ou para a direita, dependendo da polaridade da corrente. Quando o cabegote passa sobre uma area 
magnetizada, uma corrente positiva ou negativa e induzida nele, o que possibilita a leitura dos bits armazenados 
antes. Assim, a medida que o prato gira sob o cabegote, uma corrente de bits pode ser escrita e mais tarde lida. A 
geometria de uma trilha de disco e mostrada na Figura 2.19. 


Figura 2.19 Porcao de uma trilha de disco. Dois setores sao ilustrados. 
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Todos os discos tem bragos moveis que podem se mover para dentro e para fora a diferentes distancias 
radiais da haste ao redor da qual o prato gira. A cada distancia radial pode ser escrita uma trilha diferente. 
Assim, as trilhas sao uma serie de circulos concentricos ao redor da haste. A largura de uma trilha depende 
da largura do cabegote e da precisao com que ele pode ser posicionado radialmente. Com tecnologia atual, os 
discos tem em torno de 50 mil trilhas por centlmetro, resultando em larguras de trilha na faixa de 200 nano¬ 
metros (1 nanometro = 1/1.000.000 mm). Deve-se notar que uma trilha nao e um sulco flsico na superflcie, 
mas apenas um anel de material magnetizado com pequenas areas de protegao que o separa das trilhas que 
estao dentro e fora dele. 

A densidade linear de bits ao redor da circunferencia da trilha e diferente da radial. Em outras palavras, o 
numero de bits por millmetro medida em torno de uma trilha e diferente do numero de bits por millmetro a partir 
do centro em diregao a borda externa. A densidade ao redor de uma trilha e determinada em grande parte pela 
pureza da superflcie e pela qualidade do ar. Os discos de hoje atingem densidades de 25 gigabits/cm. A densidade 
radial e determinada pela precisao que o brago pode ter para chegar a uma trilha. Assim, um bit e muitas vezes 
maior na diregao radial em comparagao com a circunferencia, conforme sugere a Figura 2.19. 

Para atingir densidades ainda mais altas, os fabricantes de discos estao desenvolvendo tecnologias nas quais a 
dimensao “longa” dos bits nao esta ao longo da circunferencia do disco, mas na diregao vertical, dentro do oxido 
de ferro. Essa tecnica e denominada gravagao perpendicular e demonstrou-se que pode oferecer densidades de 
dados de ate 100 gigabits/cm. E provavel que essa se torne a tecnologia dominante nos proximos anos. 

Para conseguir alta qualidade de superflcie e ar, a maioria dos discos e selada na fabrica para evitar a 
entrada de po. Esses drives eram denominados discos Winchester, pois os primeiros deles (criados pela IBM) 
tinham 30 MB de armazenagem selada e fixa e 30 MB de armazenagem removlvel. Conta a historia que esses 
discos 30-30 lembravam as pessoas os rifles Winchester 30-30, que desempenharam um papel importante na 
abertura das fronteiras norte-americanas, e o nome “Winchester” ficou. Agora, eles sao chamados simples- 
mente de discos rlgidos, para diferencia-los dos antigos disquetes (ou discos flexlveis) usados nos primeiros 
computadores pessoais. Nessa area, e muito diflcil escolher um nome para alguma coisa que nao se torne 
ridlculo 30 anos depois. 

A maioria dos discos e composta de varios pratos empilhados na vertical, como ilustrado na Figura 2.20. 
Cada superflcie tem seu proprio brago e cabegote. Os bragos sao agrupados de modo que todos se movimentem 
para diferentes posigoes radiais ao mesmo tempo. O conjunto de trilhas em uma dada posigao radial e denomi- 


Figura 2.20 
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nado cilindro. Os discos usados hoje em PCs costumam ter de 1 a 12 pratos por drive, o que resulta em 2 a 24 
superficies de gravagao. Discos de ultima geragao podem armazenar 1 TB em um unico prato, e esse limite cer- 
tamente crescera com o tempo. 

O desempenho do disco depende de varios fa tores. Para ler ou escrever um setor, primeiro o brago deve se 
deslocar ate a posigao radial correta. Essa agao e denominada busca (seek). Tempos medios de busca (entre trilhas 
aleatorias) estao na faixa de 5 a 10 ms, embora buscas entre trilhas consecutivas agora ja estejam abaixo de 1 ms. 
Logo que o cabegote estiver posicionado radialmente, ha um atraso, denominado latencia rotacional, ate que o 
setor desejado gire sob o cabegote. A maioria dos discos gira a 5.400 RPM, 7.200 RPM ou 10.800 RPM, portanto, o 
atraso medio (meia rotagao) e de 3 a 6 ms. O tempo de transferencia depende da densidade linear e da velocidade 
de rotagao. Com taxas de transferencia tlpicas de 150 MB/s, um setor de 512 bytes demora cerca de 3,5 ps. Por 
conseguinte, o tempo de busca e a latencia rotacional dominam o tempo de transferencia. Ler setores aleatorios 
por todo o disco e claramente um modo ineficiente de operar. 

Vale a pena mencionar que, por conta de preambulos, ECCs, lacunas intersetores, tempos de busca e laten- 
cias rotacionais, ha uma grande diferenga entre taxa de rajada (burst rate) maxima de um drive e sua taxa maxima 
sustentada. A taxa maxima de rajada e a taxa de dados, uma vez que o cabegote esta sobre o primeiro bit de dados. 
O computador deve ser capaz de manipular os dados que estao chegando com essa mesma rapidez. Contudo, o 
drive so pode manter essa taxa para um unico setor. Para algumas aplicagoes, como multimldia, o que importa 
e a taxa sustentada media durante um perlodo de segundos, que tambem tern de levar em conta as necessarias 
buscas e atrasos rotacionais. 

Um pouco de racioclnio e a utilizagao daquela velha formula de matematica do colegial para a circunferen- 
cia de um clrculo, c = 2nr, revelarao que a distancia linear ao redor das trilhas mais externas e maior do que a 
das trilhas mais internas. Uma vez que todos os discos magneticos giram com velocidade angular constante, nao 
importando onde estao os cabegotes, essa observagao cria um problema. Nos drives antigos, os fabricantes usavam 
a maxima densidade linear posslvel na trilha mais interna e densidades lineares de bits sucessivamente menores 
nas trilhas mais externas. Se um disco tivesse 18 setores por trilha, por exemplo, cada uma ocupava 20 graus de 
arco, nao importando em qual cilindro se encontrava. 

Hoje, usa-se uma estrategia diferente. Os cilindros sao divididos em zonas (normalmente, 10 a 30 por drive) 
e o numero de setores por trilha aumenta de zona em zona partindo da trilha mais interna para a mais externa. 
Essa mudanga dificulta o rastreamento de informagoes mas aumenta a capacidade do drive, que e considerada 
mais importante. Todos os setores sao do mesmo tamanho. A Figura 2.21 mostra um disco com cinco zonas. 


Figura 2.21 Disco com cinco zonas. Cada zona tem muitas trilhas. 
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Associado a cada drive ha um controlador de disco, um chip que controla o drive. Alguns controladores 
contem uma CPU completa. Entre as tarefas do controlador estao: aceitar comandos do software, como READ, 
WRITE e FORMAT (escrevendo todos os preambulos), controlar o movimento do brago, detectar e corrigir erros 
e converter bytes de 8 bits lidos na memoria em uma corrente serial de bits e vice-versa. Alguns controladores 
tambem manipulam o buffer de multiplos setores, fazendo cache de setores lidos para potencial uso futuro e rema- 
peando setores ruins. Essa ultima fungao e causada pela existence de setores que tern um ponto ruim, ou seja, 
permanentemente magnetizado. Quando descobre um setor ruim, o controlador o substitui por um dos setores 
sobressalentes reservados para esse fim dentro de cada cilindro ou zona. 

2.3.3 Discos IDE 

Os discos dos modernos computadores pessoais evolulram daquele usado no IBM PC XT, que era um disco 
Seagate de 10 MB controlado por um controlador de disco Xebec em um carta o de encaixe (plug-in). O disco 
Seagate tinha 4 cabegotes, 306 cilindros e 17 setores por trilha. O controlador conseguia manipular dois drives. O 
sistema operacional ha e escrevia em um disco colocando parametros em registradores da CPU e entao chamando 
o BIOS (Basic Input Output System - sistema basico de entrada e salda) locabzado na memoria somente de 
leitura do PC. O BIOS emitia as instrugoes de maquina para carregar os registradores do controlador de disco que 
iniciava as transferences. 

A tecnologia evoluiu rapidamente e passou do controlador em uma placa separada para o controlador inte- 
grado com os drives, comegando com drives IDE (Integrated Drive Electronics - eletronica integrada ao drive) 
em meados da decada de 1980. Contudo, as convengoes de chamada do BIOS nao foram alteradas por causa da 
compatibilidade. Essas convengoes de chamada enderegavam setores dando seus numeros de cabegote, cilindro e 
setor, sendo que a numeragao de cabegotes e cilindros comegava em 0, e de setores, em 1. Essa escolha provavel- 
mente se deveu a um erro da parte do programador original do BIOS, que escreveu sua obra-prima em assembler 
8088. Com 4 bits para o cabegote, 6 bits para o setor e 10 bits para o cilindro, o drive maximo podia ter 16 cabe¬ 
gotes, 63 setores e 1.024 cilindros, para um total de 1.032.192 setores. Esse drive maximo tinha uma capacidade 
de 504 MB, o que devia parecer uma infinidade naquela epoca, porem, agora, decerto nao. (Hoje voce criticaria 
uma nova maquina que nao pudesse manipular drives maiores do que 1.000 TB?) 

Infelizmente, nao passou muito tempo e apareceram drives acima de 504 MB, mas com a geometria errada 
(por exemplo, 4 cabegotes, 32 setores e 2.000 cilindros totalizam 256.000 setores). O sistema operacional nao 
conseguia enderega-los de modo algum, por causa das convengoes de chamada do BIOS ha muito cristalizadas. O 
resultado e que os controladores de disco comegaram a mentir, fingindo que a geometria estava dentro dos limites 
do BIOS embora, na verdade, estivesse remapeando a geometria virtual para a geometria real. Embora essa tecnica 
funcionasse, causava grandes estragos nos sistemas operacionais que posicionavam dados cuidadosamente para 
minimizar tempos de busca. 

Com o tempo, os drives IDE evolulram para drives EIDE (Extended IDE - IDE estendido), que tambem 
suportavam um segundo esquema de enderegamento denominado LBA (Logical Block Addressing - enderega- 
mento de blocos logicos), que numera os setores comegando em 0 ate um maximo de 2 28 - 1. Esse esquema 
requer que o controlador converta enderegos LBA para enderegos de cabegote, setor e cilindro, mas ultrapassa 
o limite de 504 MB. Infelizmente, ele criava um novo gargalo a 2 28 x 2 9 bytes (128 GB). Em 1994, quando foi 
adotado o padrao EIDE, ninguem poderia imaginar discos de 128 GB. Comites de padronizagao, assim como os 
politicos, tern tendencia de empurrar problemas para que o proximo comite os resolva. 

Drives e controladores EIDE tambem tinham outras melhorias. Por exemplo, controladores EIDE podiam 
ter dois canais, cada um com um drive primario e um secundario. Esse arranjo permitia um maximo de quatro 
drives por controlador. Drives de CD-ROM e DVD tambem eram suportados, e a taxa de transference aumentou 
de 4 MB/s para 16,67 MB/s. 

Enquanto a tecnologia de disco continuava a melhorar, o padrao EIDE continuava a evoluir, mas, por alguma 
razao, o sucessor do EIDE foi denominado ATA-3 (AT Attachment), uma reference ao IBM PC/AT (onde AT se 
referia a entao “tecnologia avangada” - Advanced Technology - de uma CPU de 16 bits executando em 8 MHz). 
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Na edigao seguinte, o padrao recebeu o nome de ATAPI-4 (ATA Packet Interface - interface de pacotes ATA) e 
a velocidade aumentou para 33 MB/s. Com o ATAPI-5, ela alcangou 66 MB/s. 

Nessa epoca, o limite de 128 GB imposto pelos enderegos LBA de 28 bits estava ficando cada vez mais 
ameagador, portanto, o ATAPI-6 alterou o tamanho do LBA para 48 bits. O novo padrao entrara em dificuldade 
quando os discos chegarem a 2 48 x 2 9 bytes (128 PB). Com um aumento de capacidade de 50% ao ano, o limite 
de 48 bits devera durar ate mais ou menos 2035. Para saber como o problema foi resolvido, favor consul tar a 
decima primeira edigao deste livro. A melhor aposta e que o tamanho do LBA alcance 64 bits. O padrao ATAPI-6 
tambem aumentou a taxa de transferencia para 100 MB/s e atacou a questao do ruldo do disco pela primeira vez. 

O padrao ATAPI-7 e uma ruptura radical com o passado. Em vez de aumentar o tamanho do conector do 
drive (para aumentar a taxa de dados), esse padrao usa o que e chamado ATA serial para transferir 1 bit por vez 
por um conector de 7 pinos a velocidades que comegam em 150 MB/s e que, com o tempo, espera-se que alcancem 
1,5 GB/s. Substituir o atual cabo piano de 80 fios por um cabo redondo com apenas alguns millmetros a mais de 
espessura melhora o fluxo de ar dentro do computador. Alem disso, o ATA serial usa 0,5 volt para sinalizagao 
(em comparagao com os 5 volts dos drives ATAPI-6), o que reduz o consumo de energia. E provavel que, dentro 
de alguns anos, todos os computadores usarao ATA serial. A questao do consumo de energia pelos discos e cada 
vez mais importante, tan to na extremidade mais alta do mercado, onde centrais de dados tern vastas colegoes de 
discos, como na mais baixa, onde os notebooks sao limitados em questao de energia (Gurumurthi et al., 2003). 

2.3.4 Discos SCSI 

Discos SCSI nao sao diferentes de discos IDE em relagao ao modo como seus cilindros, trilhas e setores sao 
organizados, mas tern uma interface diferente e taxas de transferencia muito mais elevadas. A historia dos SCSI 
remonta a Howard Shugart, o inventor do disco flexivel, cuja empresa langou o disco SASI (Shugart Associates 
System Interface - interface de sistema da Shugart Associates) em 1979. Apos algumas modificagoes e muita dis- 
cussao, a ANSI o padronizou em 1986 e mudou o nome para SCSI (Small Computer System Interface - interface 
para sistemas computacionais pequenos). A pronuncia de SCSI em ingles e “scazi”, de scuzzy. Desde entao, 
foram padronizadas versoes cada vez mais rapidas sob os nomes de Fast SCSI (10 MHz), Ultra SCSI (20 MHz), 
Ultra2 SCSI (40 MHz), Ultra3 SCSI (80 MHz) e Ultra4 SCSI (160 MHz). Cada uma dessas versoes tambem tern 
uma versao larga (16 bits). As principais combinagoes sao mostradas na Figura 2.22. 


Figura 2.22 


Alguns dos possfveis parametros SCSI. 


Nome 

Bits de dados 

Frequencia do barramento 
(MHz) 

MB/s 

SCSI-1 

8 

5 

5 

Fast SCSI 

8 

10 

10 

Wide Fast SCSI 

16 

10 

20 

Ultra SCSI 
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Como tem altas taxas de transference, os discos SCSI sao o disco padrao de grande parte das estagoes de 
trabalho e servidores, em especial aqueles que trabalham na configuragao RAID (ver adiante). 

O SCSI e mais do que apenas uma interface de disco rlgido. E um barramento ao qual podem ser conectados 
um controlador SCSI e ate sete dispositivos. Entre eles, podem estar um ou mais discos rlgidos SCSI, CD-ROMs, 
gravadores de CD, scanners, unidades de fita e outros perifericos SCSI. Cada dispositivo SCSI tem um unico ID, 
de 0 a 7 (15 para o SCSI largo - wide SCSI). Cada dispositivo tem dois conectores: um para entrada e um para 
salda. Cabos conectam a salda de um dispositivo a entrada do seguinte, em serie, como se fosse um cordao de 
lampadas baratas de arvore de Natal. O ultimo dispositivo do cordao deve ser terminado para evitar que reflexoes 
das extremidades do barramento SCSI interfiram com outros dados no barramento. Em geral, o controlador esta 
em um carta o de encaixe ( plug-in ) no inlcio da cadeia de cabos, embora essa configuragao nao seja uma exigencia 
estrita do padrao. 

O cabo mais comum para SCSI de 8 bits tem 50 fios, 25 dos quais sao terras que fazem par com os outros 
25 fios para dar excelente imunidade contra ruldo, necessaria para operagao em alta velocidade. Dos 25 fios, 8 
sao para dados, 1 e para paridade, 9 sao para controle e os restantes sao para energia eletrica ou reservados para 
utilizagao futura. Os dispositivos de 16 bits (e 32 bits) precisam de um segundo cabo para os sinais adicionais. 
Os cabos podem ter muitos metros de comprimento, o que permite drives externos, scanners etc. 

Controladores e perifericos SCSI podem funcionar como iniciadores ou como alvos. Em geral, o controlador, 
agindo como iniciador, emite comandos para discos e outros perifericos que agem como alvos. Esses comandos 
sao blocos de ate 16 bytes, que dizem ao alvo o que ele tem de fazer. Comandos e respostas ocorrem em fases, 
usando varios sinais de controle para delinear as fases e arbitrar o acesso ao barramento quando varios dispositi¬ 
vos tentam usa-lo ao mesmo tempo. Essa arbitragem e importante porque o SCSI permite que todos os disposi¬ 
tivos funcionem simultaneamente, o que de modo potencial resulta em grande aumento do desempenho em um 
ambiente em que ha multiplos processos ativos ao mesmo tempo. IDE e EIDE permitem apenas um dispositivo 
ativo por vez. 

2.3.5 RAID 

O desempenho da CPU vem tendo aumento exponencial na ultima decada e dobra a cada 18 meses mais ou 
menos. O mesmo nao acontece com o desempenho do disco. Na decada de 1970, os tempos medios de busca em 
discos de minicomputadores eram de 50 a 100 ms. Agora, sao de 10 ms. Na maioria das industrias tecnicas (por 
exemplo, automoveis ou aviagao), um fator de 5 a 10 de melhoria de desempenho em duas decadas seria uma 
grande notlcia, mas na industria de computadores isso e constrangedor. Assim, a lacuna entre o desempenho da 
CPU e o do disco ficou cada vez maior com o passar do tempo. 

Como vimos, muitas vezes e usado processamento paralelo para acelerar o desempenho da CPU. Ao longo 
dos anos, ocorreu a varias pessoas que a E/S paralela tambem poderia ser uma boa ideia. Em seu artigo de 
1988, Patterson et al. sugeriram seis organizagoes especlficas de disco que poderiam ser usadas para melhorar o 
desempenho, a confiabilidade do disco, ou ambos (Patterson et al., 1988). Essas ideias logo foram adotadas pela 
industria e deram origem a uma nova classe de dispositivos de E/S, denominados RAID. Patterson et al. definiram 
RAID como Redundant Array of Inexpensive Disks (arranjo redundante de discos baratos), mas a industria 
redefiniu o I como “independente” em vez de barato ( inexpensive ) - talvez para que pudessem usar discos caros? 
Ja que tambem era preciso ter um vilao (como no caso RISC versus CISC, tambem devido a Patterson), nesse caso 
o bandido era o SLED (Single Large Expensive Disk - disco unico grande e caro). 

A ideia fundamental de um RAID e instalar uma caixa cheia de discos proxima ao computador, em geral um 
grande servidor, substituir a placa do controlador de disco por um controlador RAID, copiar os dados para o RAID 
e entao continuar a execugao normal. Em outras palavras, um RAID deveria parecer um SLED para o sistema ope- 
racional, mas ter melhor desempenho e melhor confiabilidade. Uma vez que discos SCSI tem bom desempenho, 
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baixo prego e a capacidade de ter ate 7 drives em um unico controlador (15 para o wide SCSI), e natural que a 
maioria dos RAIDs consista em um controlador RAID SCSI mais uma caixa de discos SCSI que parecem para o 
sistema operacional como um unico disco grande. Portanto, nao e preciso alterar software para usar o RAID, um 
otimo argumento de venda para muitos administradores de sistemas. 

Alem de parecerem um disco unico para o software, ha uma propriedade comum a todos os RAIDs, 
que e a distribuigao dos dados pelos drives para permitir operagao paralela. Patterson et al. definiram varios 
esquemas diferentes para fazer isso e, agora, eles sao conhecidos como RAID nlvel 0 ate RAID nivel 5. Alem 
disso, ha alguns outros nlveis menos importantes que nao discutiremos. O termo “nivel” e, de certa manei- 
ra, uma denominagao impropria, uma vez que nao ha nenhuma hierarquia envolvida; ha simplesmente seis 
diferentes organizagoes posslveis, cada qual com uma mistura diferente de caracterlsticas de confiabilidade 
e desempenho. 

O RAID nivel 0 e ilustrado na Figura 2.23(a). Consiste em ver o disco virtual simulado pelo RAID como 
se fosse dividido em tiras de k setores cada: os setores 0 a k - 1 sao a tira 0, os setores k a 2k - 1 sao a tira 1 e 
assim por diante. Para k = 1, cada tira e um setor; para k = 2, uma tira sao dois setores etc. A organizagao RAID 
nivel 0 escreve tiras consecutivas nos drives por alternancia circular, como demonstrado na Figura 2.23(a) para 
um RAID com quatro drives de disco. Essa distribuigao de dados por multiplos drives e denominada striping 
(ou segmentagao). Por exemplo, se o software emitir um comando para ler um bloco de dados que consiste 
em quatro tiras consecutivas e comega na borda da tira, o controlador RAID o subdividira em quatro comandos 
separados, um para cada disco, e fara com que eles funcionem em paralelo. Assim, temos E/S paralela sem que 
o software saiba disso. 

O RAID nivel 0 funciona melhor com requisigoes grandes; quanto maiores, melhor. Se uma requisigao for 
maior do que o numero de drives vezes o tamanho da tira, alguns drives receberao multiplas requisigoes, de modo 
que, quando terminam a primeira, iniciam a segunda. Cabe ao controlador dividir a requisigao e alimentar os 
comandos adequados aos discos adequados na sequencia certa e entao agrupar os resultados na memoria corre- 
tamente. O desempenho e excelente e a execugao e direta. 

O RAID nivel 0 funciona pior com sistemas operacionais que costumam requisitar dados a um setor por vez. 
Os resultados serao corretos, mas nao ha paralelismo e, por conseguinte, nenhum ganho de desempenho. Outra 
desvantagem dessa organizagao e que a confiabilidade e potencialmente pior do que ter um SLED. Se um RAID 
consistir em quatro discos, cada um com um tempo medio de falha de 20 mil horas, mais ou menos uma vez 
a cada 5 mil horas um drive falhara e havera perda total de dados. Um SLED com um tempo medio de falha de 
20 mil horas seria quatro vezes mais confiavel. Como nao ha nenhuma redundancia presente nesse projeto, na 
realidade ele nao e um RAID verdadeiro. 

A proxima opgao, RAID nivel 1, mostrada na Figura 2.23(b), e um RAID verdadeiro. Ele duplica todos os 
discos, portanto, ha quatro discos primarios e quatro de backup. Para uma escrita, cada tira e escrita duas vezes. 
Para uma leitura, qualquer das duas copias pode ser usada, distribuindo a carga por mais drives. Por conseguinte, 
o desempenho da escrita nao e melhor do que o de um unico drive, mas o de leitura pode ser duas vezes melhor. 
A tolerancia a falhas e excelente: se um drive falhar, basta usar a outra copia em seu lugar. A recuperagao consiste 
na simples instalagao de um novo drive e em copiar todo o drive de backup para ele. 

Ao contrario dos niveis 0 e 1, que trabalham com tiras de setores, o RAID nivel 2 trabalha por palavra, pos- 
sivelmente ate por byte. Imagine dividir cada byte do disco virtual unico em um par de nibbles de 4 bits e entao 
acrescentar um codigo de Hamming a cada um para formar uma palavra de 7 bits, dos quais os bits 1, 2 e 4 fos- 
sem de paridade. Imagine ainda que a posigao do brago e a posigao rotacional dos sete drives da Figura 2.23(c) 
fossem sincronizadas. Entao, seria possivel escrever a palavra de 7 bits codificada por Hamming nos sete drives, 
um bit por drive. 
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Figura 2.23 RAIDs nfveis 0 a 5. Os drives de backup e paridade estao sombreados. 
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O computador Thinking Machine CM-2 usava esse esquema, pegando palavras de 32 bits de dados e adicio- 
nando 6 bits de paridade para formar uma palavra de Hamming de 38 bits, mais um bit extra para paridade de 
palavra, e distribuindo cada palavra em 39 drives de disco. O rendimento total era imenso porque em um tempo 
de setor ele podia escrever o equivalente a 32 setores de dados. Alem disso, perder um drive nao causava problemas, 
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porque essa perda equivaleria a perder 1 bit em cada palavra de 39 bits lida, algo que o codigo de Hamming 
poderia manipular facilmente. 

Uma desvantagem e que esse esquema requer que as rotagoes de todos os drives sejam sincronizadas, e isso 
so faz sentido com um numero substancial de drives (mesmo com 32 drives de dados e 6 drives de paridade, a 
sobrecarga seria de 19%). O esquema tambem exige muito do controlador, uma vez que ele deve efetuar uma soma 
de verificagao ( checksum ) de Hamming a cada tempo de bit. 

O RAID nlvel 3, ilustrado na Figura 2.23(d), e uma versao simplificada do RAID nlvel 2. Nesse arranjo, um 
unico bit de paridade e computado para cada palavra de dados e escrito em um drive de paridade. Como no RAID 
nlvel 2, os drives devem estar em exata sincronia, uma vez que palavras de dados individuais estao distribuldas 
por multiplos drives. 

A primeira vista, pode parecer que um unico bit de paridade da somente detecgao de erro, e nao corregao de 
erro. Para o caso de erros aleatorios nao detectados, essa observagao e verdadeira. Todavia, para o caso de uma 
falha de drive, ela prove corregao total de erros de 1 bit, uma vez que a posigao do bit defeituoso e conhecida. Se 
um drive falhar, o controlador apenas finge que todos os seus bits sao Os. Se uma palavra tiver um erro de parida¬ 
de, o bit que vem de um drive extinto deve ter sido um 1, portanto, e corrigido. Embora ambos os RAIDs nlveis 2 
e 3 oferegam taxas de dados muito altas, o numero de requisigoes separadas de E/S por segundo que eles podem 
manipular nao e melhor do que o de um unico drive. 

RAIDs nlveis 4 e 5 de novo trabalham com tiras, e nao com palavras individuais com paridade, e nao reque- 
rem drives sincronizados. O RAID nlvel 4 [veja a Figura 2.23(e)] e como o RAID nlvel 0, com paridade tira por tira 
escrita em um drive extra. Por exemplo, se cada tira tiver k bytes de comprimento, todas as tiras passam por uma 
operagao de EXCLUSIVE OR, resultando em uma tira de paridade de k bytes de comprimento. Se um drive falhar, 
os bytes perdidos podem ser recalculados com base no drive de paridade. 

Esse projeto protege contra a perda de um drive, mas seu desempenho e mediocre para pequenas atualiza- 
goes. Se um setor for alterado, e necessario ler todos os drives para recalcular a paridade que, entao, precisara ser 
reescrita. Como alternativa, ele pode ler os velhos dados de usuario e os velhos dados de paridade e recalcular 
nova paridade, e partir deles. Mesmo com essa otimizagao, uma pequena atualizagao requer duas leituras e duas 
escritas, o que e, claramente, um mau arranjo. 

Como consequencia da carga pesada sobre o drive de paridade, ele pode se tornar um gargalo. Esse gargalo 
e eliminado no RAID nlvel 5 distribuindo os bits de paridade uniformemente por todos os drives , por alternancia 
circular, conforme mostra a Figura 2.23(0- Contudo, no evento de uma falha de drive , a reconstrugao do drive 
danificado e um processo complexo. 

2.3.6 Discos em estado solido 

Discos feitos de memoria flash nao volatil, geralmente denominados discos em estado solido (SSDs - Solid¬ 
'S tate Disks), estao ganhando mais popularidade como uma alternativa de alta velocidade as tecnologias tradicio- 
nais em disco magnetico. A invengao do SSD e uma historia classica de “Quando lhe oferecem limoes, faga uma 
limonada”. Embora a eletronica moderna possa parecer totalmente confiavel, a realidade e que os transistores 
se desgastam lentamente a medida que sao usados. Toda vez que eles cornu tarn, se desgastam um pouco e ficam 
mais perto de nao funcionarem mais. Um modo provavel de falha de um transistor e pela “injegao de portadora 
quente”, um mecanismo de falha em que uma carga eletrica e embutida dentro de um transistor que funcionava, 
deixando-o em um estado onde fica permanentemente ligado ou desligado. Embora em geral considerado senten- 
ga de morte para um transistor (provavelmente) inocente, Fujio Masuoka, enquanto trabalhava para a Toshiba, 
descobriu um modo de aproveitar esse mecanismo de falha para criar uma nova memoria nao volatil. No inlcio 
da decada de 1980, ele inventou a primeira memoria flash. 

Os discos flash sao compostos de muitas celulas de memoria flash em estado solido. As celulas da memo¬ 
ria flash sao feitas de um unico transistor flash especial. Uma celula de memoria flash aparece na Figura 2.24. 
Embutido no transistor ha uma porta flutuante que pode ser carregada e descarregada usando altas voltagens. 
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Antes de ser programada, a porta flutuante nao afeta a operagao do transistor, atuando como um isolador extra 
entre a porta de controle e o canal do transistor. Se a celula flash for testada, ela atuara como um transistor 
simples. 


Figura 2.24 Uma celula de memoria flash. 
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Para programar uma celula de bit flash, uma alta tensao (no mundo dos computadores, 12 V e uma alta 
tensao) e aplicada a porta de controle, que acelera o processo de injegao de portadora quente na porta flutuante. 
Os eletrons sao embutidos na porta flutuante, que coloca uma carga negativa interna no transistor flash. A carga 
negativa embutida aumenta a tensao necessaria para ligar o transistor flash e, testando se o canal liga ou nao com 
uma tensao alta ou baixa, e posslvel determinar se a porta flutuante esta carregada ou nao, resultando em um valor 
0 ou 1 para a celula flash. A carga embutida permanece no transistor, mesmo que o sistema perca a alimentagao, 
tornando a celula de memoria flash nao volatil. 

Visto que os SSDs sao basicamente memoria, eles possuem desempenho superior aos discos giratorios, com 
tempo de busca zero. Enquanto um disco magnetico tlpico pode acessar dados em ate 100 MB/s, um SSD pode 
operar duas a tres vezes mais rapido. E como o dispositivo nao possui partes moveis, ele e muito adequado para 
uso em notebooks, onde trepidagoes e movimentos nao afetarao sua capacidade de acessar dados. A desvantagem 
dos SSDs, em comparagao com discos magneticos, e o seu custo. Enquanto os discos magneticos custam centa¬ 
vos de dolar por gigabyte, um SSD tlpico custara de um a tres dolares por gigabyte, tornando seu uso apropriado 
apenas para aplicagoes com drive menor ou em situagoes em que o custo nao e um problema. O custo dos SSDs 
esta caindo, mas ainda ha um longo caminho ate que alcancem os discos magneticos baratos. Assim, embora os 
SSDs estejam substituindo os discos magneticos em muitos computadores, talvez ainda leve um bom tempo antes 
que o disco magnetico siga o caminho dos dinossauros (a menos que outro grande meteoro atinja a Terra, mas 
nesse caso nem os SSDs sobreviveriam). 
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Outra desvantagem dos SSDs em comparagao com os discos magneticos e sua taxa de falha. Uma celula flash 
tlpica pode ser escrita somente por cerca de 100 mil vezes antes que nao funcione mais. O processo de injetar ele- 
trons na porta flutuante a danifica aos poucos, bem como seus isoladores ao redor, ate que nao funcione mais. Para 
aumentar o tempo de vida dos SSDs, e usada uma tecnica denominada nivelamento de desgaste, para espalhar as 
escritas por todas as celulas flash no disco. Toda vez que um novo bloco de disco e escrito, o bloco de destino e rea- 
tribuldo a um novo bloco do SSD, que nao foi escrito recentemente. Isso exige o uso de um mapa de blocos logicos 
dentro do drive flash, que e um dos motivos pelos quais os drives flash possuem altos overheads de armazenamento 
interno. Usando o nivelamento de desgaste, um drive flash pode dar suporte a uma quantidade de escritas igual ao 
numero de escritas que uma celula pode sustentar multiplicado pelo numero de blocos no disco. 

Alguns SSDs sao capazes de codificar varios bits por byte, usando celulas flash multinlveis. A tecnologia 
controla cuidadosamente a quantidade de carga colocada na porta flutuante. Uma sequencia cada vez maior de 
voltagens e entao aplicada a porta de controle para determinar quanta carga e armazenada na flutuante. As celulas 
multinlveis tlpicas admitem quatro nlveis de carga, resultando em dois bits por celula flash. 

2.3.7 CD-ROMs 

Discos opticos foram desenvolvidos na origem para gravar pro gramas e televisao, mas podem ser utilizados 
para uma fungao mais estetica como dispositivos de armazenagem de computadores. Por sua grande capacidade 
e baixo prego, discos oticos sao muito usados para distribuir software, livros, filmes e dados de todos os tipos, 
bem como para fazer backup de discos rlgidos. 

A primeira geragao de discos oticos foi inventada pela Philips, conglomerado holandes de eletronica, para 
conter filmes. Tinham 30 cm de diametro e eram comercializados com a marca LaserVision, mas nao se estabe- 
leceram, exceto no Japao. 

Em 1980, a Philips, junto com a Sony, desenvolveu o CD (Compact Disc), que logo substituiu os discos 
de vinil de 33 1/3 RPM usados para gravar musica. Os dados tecnicos exatos do CD foram publicados em um 
Padrao Internacional (IS 10149), popularmente conhecido como Red Book (livro vermelho) por causa da cor 
de sua capa. (Padroes Internacionais sao emitidos pela International Organization for Standardization, que e a 
contraparte internacional de grupos de padronizagao nacionais como ABNT, ANSI etc. Cada um tern um numero 
IS.) O motivo da publicagao das especificagoes do disco e do drive como um Padrao Internacional e permitir que 
CDs de diferentes gravadoras e aparelhos de reprodugao de diferentes fabricantes funcionem em conjunto. Todos 
os CDs tern 120 mm de diametro 1,2 mm de espessura, com um oriflcio de 15 mm no meio. O CD de audio foi o 
primeiro meio de armazenagem digital a ter sucesso no mercado de massa. Supoe-se que devam durar cem anos. 
Favor verificar em 2080 um relatorio sobre como se saiu o primeiro lote. 

Um CD e preparado com a utilizagao de um laser infravermelho de alta potencia para queimar oriflcios de 
0,8 micron de diametro em um disco mestre revestido de vidro. Com base nesse mestre e fabricado um molde, 
com saliencias onde estavam os oriflcios de laser. Entao, injeta-se policarbonato fundido nesse molde para for- 
mar um CD com o mesmo padrao de oriflcios do disco mestre revestido de vidro. Em seguida, e depositada uma 
fina camada de alumlnio refletivo sobre o policarbonato, coberta por um verniz de protegao e, por fim, vem uma 
etiqueta. As marcas no substrato de policarbonato sao denominadas depressoes (pits) e as areas entre elas sao 
denominadas pianos (lands). 

Quando o disco e tocado, um diodo a laser de baixa potencia emite luz infravermelha de comprimento de 
onda de 0,78 micron sobre as depressoes e pianos quando estes passam pela luz. O laser esta no lado do policarbo- 
nato, portanto, as depressoes estao invertidas na diregao do laser e aparecem como saliencias sobre uma superflcie 
que, caso contrario, seria plana. Como as depressoes tern uma altura de um quarto do comprimento de onda da 
luz de laser, a luz que se reflete de uma depressao tern uma defasagem de meio comprimento de onda em relagao 
a que se reflete das superficies que a circundam. O resultado e que as duas partes interferem uma com a outra 
de modo destrutivo e devolvem menos luz ao fotodetector do aparelho de reprodugao do que a luz que se reflete 
de um piano. E assim que o aparelho distingue uma depressao de um piano. Embora talvez parega mais simples 
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usar uma depressao para gravar um 0 e um piano para gravar um 1, e mais confiavel usar uma transigao depressao/ 
piano ou plano/depressao para um 1 e sua ausencia para um 0; portanto, esse e o esquema usado. 

As depressoes e os pianos sao escritos em uma unica espiral contlnua que comega perto do oriflcio central e 
continua por uma distancia de 32 mm em diregao a borda. A espiral faz 22.188 rotagoes ao redor do disco (cerca 
de 600 por mm). Se fosse desenrolada, teria 5,6 km de comprimento. A espiral e ilustrada na Figura 2.25. 


Figura 2.25 


Estrutura de gravacao de um disco compacto ou CD-ROM. 



Para fazer a musica ser tocada a uma taxa uniforme, e preciso que as depressoes e os pianos passem sob a 
luz a uma velocidade linear constante. Em consequencia, a taxa de rotagao deve ser continuamente reduzida 
a medida que o cabegote de leitura se move da parte interna para a externa do CD. Na parte interna, a taxa 
de rotagao e de 530 RPM para conseguir a taxa de reprodugao regular de 120 cm/s; na parte mais externa, 
tern de cair para 200 RPM para dar a mesma velocidade linear no cabegote. Um drive de velocidade linear 
constante e bem diferente de um drive de disco magnetico, que funciona a uma velocidade angular constan¬ 
te, independente de onde o cabegote esteja posicionado naquele momento. Alem disso, 530 RPM estao bem 
longe das 3.600 a 7.200 RPM com as quais gira a maioria dos discos magneticos. 

Em 1984, a Philips e a Sony perceberam o potencial para usar CDs como meio de armazenagem de dados 
de computadores, entao, publicaram o Yellow Book (livro amarelo) definindo um padrao exato para o que agora 
conhecemos como CD-ROMs (Compact Disc-Read Only Memory - disco compacto com memoria somente de 
leitura). Para pegar carona no mercado de CDs de audio, que ja era substancial na epoca, os CD-ROMs tinham o 
mesmo tamanho flsico dos CDs de audio, guardavam compatibilidade mecanica e otica com eles e eram produzi- 
dos usando as mesmas maquinas de moldagem por injegao. As consequencias dessa decisao foram a necessidade 
de motores lentos de velocidade variavel mas tambem que o custo de manufatura de um CD-ROM estivesse bem 
abaixo de um dolar para um volume moderado. 

O Yellow Book definiu a formatagao dos dados de computador. Tambem melhorou as capacidades de cor- 
regao de erro do sistema, um passo essencial porque, embora os apreciadores de musica nao se importassem em 
perder um bit aqui, outro ali, os apreciadores de computadores tendiam a ser muito exigentes com isso. O formato 
basico de um CD-ROM consiste em codificar cada byte em um slmbolo de 14 bits. Como ja vimos, 14 bits sao 
suficientes para codificar com Hamming um byte de 8 bits e ainda sobram 2. Na verdade, e usado um sistema de 
codificagao mais poderoso. O mapeamento 14 para 8 para leitura e realizado em hardware por consulta de tabela. 

Do nivel seguinte para cima, um grupo de 42 slmbolos consecutivos forma um quadro de 588 bits. Cada 
quadro contem 192 bits de dados (24 bytes). Os 396 bits restantes sao usados para corregao e controle de erro. 
Ate aqui, esse esquema e identico para CDs e CD-ROMs. 
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O que o Yellow Book acrescenta e o agrupamento de 98 quadros em um setor de CD-ROM, conforme 
mostra a Figura 2.26. Cada setor de CD-ROM comega com um preambulo de 16 bytes, sendo os 12 primeiros 
00FFFFFFFFFFFFFFFFFFFF00 (hexadecimal), para permitir que o aparelho de reprodugao reconhega o inlcio 
de um setor de CD-ROM. Os 3 bytes seguintes contem o numero do setor, necessario porque fazer busca em um 
CD-ROM com sua unica espiral de dados e muito mais diflcil do que em um disco magnetico com suas trilhas 
concentricas uniformes. Para buscar, o software no drive calcula mais ou menos aonde ir, leva o cabegote ate la e 
entao comega a procurar um preambulo para verificar a precisao do calculo. O ultimo bit do preambulo e o modo. 


^ Figura 2.26 Layout logico de dados em um CD-ROM. 
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O Yellow Book define dois modos. O modo 1 usa o layout da Figura 2.26, com um preambulo de 16 bytes, 
2.048 bytes de dados e um codigo de corregao de erro de 288 bytes (um codigo de Reed-Solomon de intercalagao 
cruzada). O modo 2 combina os dados e campos ECC em um campo de dados de 2.336 bytes para as aplicagoes 
que nao precisam de corregao de erro (ou nao dispoem de tempo para executa-la), como audio e video. Note que, 
para oferecer excelente confiabilidade, sao usados tres esquemas separados de corregao de erros: dentro de um 
slmbolo, dentro de um quadro e dentro de um setor de CD-ROM. Erros de unico bit sao corrigidos no nivel mais 
baixo, erros em rajada curtos sao corrigidos no nivel de quadro e quaisquer erros residuais sao apanhados no nivel 
de setor. O prego pago por essa confiabilidade e que sao necessarios 98 quadros de 588 bits (7.203 bytes) para 
transportar uma unica carga util de 2.048 bytes, uma eficiencia de apenas 28%. 

Drives de CD-ROM de uma velocidade operam a 75 setores/s, o que da uma taxa de dados de 153.600 bytes/s 
em modo 1 e 175.200 bytes/s em modo 2. Drives de dupla velocidade sao duas vezes mais rapidos e assim por 
diante, ate a velocidade mais alta. Um CD padrao de audio tern espago para 74 minutos de musica que, se usado 
para dados do modo 1, da uma capacidade de 681.984.000 bytes. Esse numero costuma ser informado como 650 
MB, pois 1 MB e igual a 2 20 bytes (1.048.576 bytes), e nao 1 milhao de bytes. 

Como e muito comum, sempre que surge uma nova tecnologia, algumas pessoas tentam desafiar os limites. 
Ao projetar o CD-ROM, a Philips e a Sony foram cuidadosas e fizeram o processo de escrita parar bem antes que 
a borda externa do disco fosse alcangada. Nao levou muito tempo para que alguns fabricantes permitissem que 
seus drives fossem alem do limite oficial e chegassem perigosamente perto da borda fisica da midia, gerando cerca 
de 700 MB em vez de 650 MB. Porem, quando a tecnologia foi aperfeigoada e os discos vazios foram fabricados 
com um padrao mais alto, 703,12 MB (360 mil setores de 2.048 bytes, em vez de 333 mil setores) se tornaram a 


nova norma. 
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Note que mesmo um drive de CD-ROM 32x (4.915.200 bytes/s) nao e pareo para o drive de disco magnetico 
Fast SCSI-2 a 10 MB/s. Quando voce se der conta de que o tempo de busca muitas vezes e de varias centenas 
de milissegundos, deve ficar claro que os drives de CD-ROM nao estao de forma alguma na mesma categoria de 
desempenho dos drives de disco magnetico, a despeito de sua grande capacidade. 

Em 1986, a Philips atacou mais uma vez com o Green Book (livro verde), acrescentando recursos graficos 
e a capacidade de intercalar audio, video e dados no mesmo setor, uma caracterlstica essencial para CD-ROMs 
multimldia. 

A ultima pega do quebra-cabega do CD-ROM e o sistema de arquivos. Para possibilitar a utilizagao 
do mesmo CD-ROM em diferentes computadores, era preciso chegar a um acordo quanto aos sistemas de 
arquivos em CD-ROM. Para conseguir esse acordo, representantes de muitas empresas fabricantes de com¬ 
putadores se reuniram em Lake Tahoe, nas High Sierras, na fronteira California-Nevada, e arquitetaram um 
sistema de arquivos que denominaram High Sierra. Mais tarde, ele evoluiu para um Padrao Internacional (IS 
9660). O sistema tern tres nlveis. O nlvel 1 usa nomes de arquivo de ate 8 caracteres e podem ser seguidos 
de uma extensao de ate 3 caracteres (a convengao de nomeagao de arquivos do MS-DOS). Nomes de arquivos 
so podem conter letras maiusculas, dlgitos e o caractere de sublinhado. Diretorios podem ser aninhados ate 
oito, mas nomes de diretorios nao podem conter extensoes. O nlvel 1 requer que todos os arquivos sejam 
contlguos, o que nao e problema para um meio que e escrito apenas uma vez. Qualquer CD-ROM que obe- 
dega ao IS 9660 nlvel 1 pode ser lido usando MS-DOS, um computador Apple, um computador UNIX ou 
praticamente qualquer outro computador. Os fabricantes de CD-ROMs consideram essa propriedade uma 
grande vantagem. 

O IS 9660 nlvel 2 permite nomes de ate 32 caracteres e o nlvel 3 permite arquivos nao contlguos. As exten¬ 
soes Rock Ridge (o nome extravagante se deve a cidade em que Mel Brooks filmou Blazing Saddles [Banze no 
Oeste]) permitem nomes muito longos (para UNIX), UIDs, GIDs, e enlaces simbolicos, mas os CD-ROMs que 
nao obedecem ao nlvel 1 nao poderao ser lidos em todos os computadores. 

2.3.8 CDs gravaveis 

De inlcio, o equipamento necessario para produzir um CD-ROM mestre (ou CD de audio, por falar nisso) 
era muito dispendioso. Mas, como sempre acontece na industria de computadores, nada permanece caro por 
muito tempo. Em meados da decada de 1990, gravadores de CD nao maiores do que um reprodutor de CD eram 
um periferico comum disponlvel na maioria das lojas de computadores. Esses dispositivos ainda eram diferentes 
dos discos magneticos porque, uma vez gravados, os CD-ROMs nao podiam ser apagados. Ainda assim, eles logo 
encontraram um nicho como um meio de backup para grandes discos rlgidos magneticos e tambem permitiram 
que indivlduos ou novas empresas fabricassem seus proprios CD-ROMs em pequena escala ou produzissem mes- 
tres para fornecer a empresas comerciais de reprodugao de grandes volumes de CDs. Esses drives sao conhecidos 
como CD-Rs (CD-Recordables - CDs gravaveis). 

Os CD-Rs comegaram com discos em branco de policarbonato de 120 mm de diametro que sao como 
CD-ROMs, exceto por conterem um sulco de 0,6 mm de largura para guiar o laser durante a escrita (gravagao). O 
sulco tern um desvio senoidal de 0,3 mm a uma frequencia de exatos 22,05 kHz para prover realimentagao contl- 
nua, de modo que a rotagao possa ser monitorada e ajustada com precisao, caso necessario. Os primeiros CD-Rs 
pareciam CD-ROMs normals, exceto por terem a superflcie superior dourada, e nao prateada. Essa cor vinha da 
utilizagao de ouro verdadeiro em vez de alumlnio na camada refletiva. Diferente dos CDs prateados que conti- 
nham depressoes flsicas, nos CD-Rs as diferentes refletividades das depressoes e dos pianos tern de ser simuladas. 
Isso e feito com a adigao de uma camada de corante entre o policarbonato e a superflcie refletiva, como mostra a 
Figura 2.27. Sao usadas duas especies de corantes: cianina, que e verde, e ftalocianina, que e amarelo-alaranjada. 
Os qulmicos podem discutir eternamente sobre qual das duas e melhor. Com o tempo, a camada refletiva dourada 
foi substitulda por uma camada de alumlnio. 
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Figura 2.27 Secao transversal de um disco CD-R e laser (nao esta em escala). Um CD-ROM tern estrutura semelhante, exceto por nao ter 
a camada de corante e por ter uma camada de aluminio cheia de depressoes em vez de uma camada refletiva. 
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Em seu estagio inicial, a camada de corante e transparente e permite que a luz do laser que a atravessa seja 
refletida pela camada refletiva. Para gravar (escrever), o laser CD-R e ligado em alta potencia (8-16 mW). Quando 
o feixe atinge uma porgao do corante, ele o aquece e rompe a ligagao qulmica. Essa alteragao da estrutura mole¬ 
cular cria um ponto escuro. Quando o CD-R e lido (a 0,5 mW), o fotodetector ve uma diferenga entre os pontos 
escuros onde o corante foi atingido e as areas transparentes onde o disco esta intacto. Essa diferenga e interpretada 
como a diferenga entre depressoes e pianos, mesmo quando lidas por um leitor de CD-ROM normal ou ate mesmo 
por um reprodutor de CD de audio. 

Nenhum tipo novo de CD poderia se firmar com orgulho sem ter um livro colorido, portanto, o CD-R tern 
o Orange Book (livro laranja), publicado em 1989. Esse documento define o CD-R e tambem um novo formato, 
o CD-ROM XA, que permite que os CD-Rs sejam gravados por incrementos, alguns setores hoje, outros amanha 
e mais alguns no proximo mes. Um grupo de setores consecutivos escritos de uma so vez e denominado trilha 
de CD-ROM. 

Um dos primeiros usos do CD-R foi no PhotoCD da Kodak. Nesse sistema, o cliente leva ao processador 
de fotos um rolo de filme exposto e seu velho PhotoCD, e recebe de volta o mesmo PhotoCD com novas fotos 
acrescentadas as antigas. O novo lote, que e criado por digitalizagao dos negativos, e gravado no PhotoCD como 
uma trilha de CD-ROM separada. A gravagao incremental e necessaria porque os CD-Rs virgens sao muito caros 
para se ter um novo para cada rolo de filme. 

Contudo, a gravagao incremental cria um novo problema. Antes do Orange Book, todos os CD-ROMs 
tinham, no inlcio, uma unica VTOC (Volume Table of Contents - sumario de conteudo de volumes). Esse 
esquema nao funciona com escritas incrementais (isto e, multitrilhas). A solugao do Orange Book e dar a cada 
trilha de CD-ROM sua propria VTOC. Os arquivos listados na VTOC podem incluir alguns ou todos os arquivos 
de trilhas anteriores. Apos a insergao do CD-R no drive, o sistema operacional faz uma busca em todas as trilhas 
do CD-ROM para localizar a VTOC mais recente, que da o estado atual do disco. Por incluir alguns, mas nao 
todos os arquivos de trilhas anteriores na VTOC corrente, e posslvel dar uma ilusao de que os arquivos foram 
apagados. As trilhas podem ser agrupadas em sessoes, o que resulta em CD-ROMs multissessoes. Reprodutores 
de CD de audio padrao nao podem manipular CDs multissessoes, ja que esperam uma unica VTOC no inlcio. 
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O CD-R possibilita que indivlduos e empresas copiem CD-ROMs (e CDs de audio) com facilidade, em geral com 
a violagao dos direitos autorais do editor. Varios esquemas ja foram inventados para dificultar esse tipo de pirataria e 
tambem a leitura de um CD-ROM usando qualquer outra coisa que nao seja o software do editor. Um deles envolve 
gravar todos os comprimentos de arquivos do CD-ROM como multigigabyte, frustrando quaisquer tentativas de 
copiar os arquivos para disco rlgido com a utilizagao de software de copia padrao. Os verdadeiros comprimentos estao 
embutidos no software do editor ou ocultos (possivelmente criptografados) no CD-ROM em um lugar nao esperado. 
Outro esquema usa intencionalmente ECCs incorretos em setores selecionados, na esperanga de que o software de 
copia de CDs “corrija” os erros. O software de aplicagao verifica os ECCs e se recusa a funcionar se estiverem “corri- 
gidos”. Usar lacunas nao padronizadas entre trilhas e outros “defeitos” flsicos tambem sao possibilidades. 

2.3.9 CDs regravaveis 

Embora todos estejam acostumados com outras mldias que aceitam apenas uma escrita, como papel 
fotografico, existe uma demanda por CD-ROMs regravaveis. Uma tecnologia disponlvel agora e o CD-RW 
(CD-ReWritable - CDs regravaveis), que usa um meio do mesmo tamanho do CD-R. Contudo, em vez dos 
corantes cianina ou ftalocianina, o CD-RW usa uma liga de prata, Indio, antimonio e telurio para a camada de 
gravagao. Essa liga tern dois estados estaveis: cristalino e amorfo, com diferentes refletividades. 

Os drives de CD-RW usam lasers com tres potencias diferentes. Em alta potencia, o laser funde a liga fazendo- 
-a passar do estado cristalino de alta refletividade para o estado amorfo de baixa refletividade, para representar 
uma depressao. Em potencia media, a liga se funde e volta a seu estado natural cristalino para se tornar novamente 
um piano. Em baixa potencia, o estado do material e sondado (para leitura), mas nao ocorre qualquer transigao 
de fase. 

A razao por que o CD-RW nao substituiu completamente o CD-R e que os CD-RWs em branco sao mais 
caros do que os CD-Rs em branco. Alem disso, para aplicagoes de backup de discos rlgidos, o fato de que, uma 
vez escrito, o CD nao possa ser apagado acidentalmente, e uma grande vantagem, e nao um bug. 

2.3.10 DVD 

O forma to basico do CD/CD-ROM esta na praga desde 1980. Em meados da decada de 1990, a tecnologia 
melhorou bastante, de modo que discos opticos de capacidade mais alta se tornaram economicamente viaveis. Ao 
mesmo tempo, Hollywood estava procurando um meio de substituir as fitas analogicas de videoteipe por discos 
digitais, pois estes tern qualidade mais alta, sao mais baratos de fabricar, duram mais, ocupam menos espago nas 
prateleiras das locadoras de video e nao precisam ser rebobinados. Estava parecendo que a roda do progresso para 
os discos oticos estava para girar mais uma vez. 

Essa combinagao de tecnologia e demanda por tres industrias imensamente ricas e poderosas resultou no 
DVD, na origem um acronimo para Digital Video Disk (disco de video digital), mas agora oficialmente Digital 
Versatile Disk (disco versatil digital). DVDs usam o mesmo desenho geral dos CDs, com discos de policarbonato 
de 120 mm moldados por injegao que contem depressoes e pianos iluminados por um diodo de laser e lidos por 
um fotodetector. A novidade e o uso de 

1. Depressoes menores (0,4 micron versus 0,8 micron para CDs). 

2. Uma espiral mais apertada (0,74 micron entre trilhas versus 1,6 micron para CDs). 

3. Um laser vermelho (a 0,65 micron versus 0,78 micron para CDs). 


Juntas, essas melhorias aumentam sete vezes a capacidade, passando para 4,7 GB. Um drive de DVD lx 
funciona a 1,4 MB/s (versus 150 KB/s para CDs). Infelizmente, a troca para lasers vermelhos usados em supermer- 
cados significa que os reprodutores de DVD precisarao de um segundo laser para poder ler os CDs e CD-ROMs 
existentes, aumentando um pouco de complexidade e custo. 
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Uma capacidade de 4,7 GB e suficiente? Talvez. Usando compressao MPEG-2 (padronizada no IS 13346), 
um disco DVD de 4,7 GB pode conter 133 minutos de video de tela cheia com imagens em movimento em alta 
resolugao (720 x 480), bem como trilhas sonoras em ate oito idiomas e legendas em mais 32. Cerca de 92% de 
todos os filmes que Hollywood ja produziu tern menos de 133 minutos. Nao obstante, algumas aplicagoes, como 
jogos multimldia ou obras de referencia, talvez precisem mais, e Hollywood gostaria de gravar varios filmes em 
um mesmo disco, portanto, quatro formatos foram definidos: 

1. Uma face, uma camada (4,7 GB). 

2. Uma face, duas camadas (8,5 GB). 

3. Duas faces, uma camada (9,4 GB). 

4. Duas faces, duas camadas (17 GB). 

Por que tantos formatos? Em uma palavra: polltica. A Philips e a Sony queriam discos de uma unica face 
com duas camadas para a versao de alta capacidade, mas a Toshiba e a Time Warner queriam discos de duas faces, 
com uma camada. A Philips e a Sony nao imaginaram que as pessoas estariam dispostas a virar os discos, e a 
Time Warner nao acreditava que colocar duas camadas em uma face poderia funcionar. A solugao de conciliagao: 
todas as combinagoes, mas o mercado determinara quais sobreviverao. Bem, o mercado falou. A Philips e a Sony 
estavam certas. Nunca aposte contra a tecnologia. 

A tecnologia da camada dupla tern uma camada refletiva embaixo, coberta por uma semirrefletiva. Dependendo 
de onde o laser for focalizado, ele se reflete de uma camada ou da outra. A camada inferior precisa de depressoes e 
pianos um pouco maiores, para leitura confiavel, portanto, sua capacidade e um pouco menor do que a da superior. 

Discos de dupla face sao fabricados colando dois discos de uma face de 0,6 mm. Para que todas as versoes 
tenham a mesma espessura, um disco de uma face consiste em um disco de 0,6 mm colado a um substrato em 
branco (ou, talvez, no futuro, contendo 133 minutos de propaganda, na esperanga de que as pessoas ficarao curio- 
sas de saber o que existe la dentro). A estrutura do disco de dupla face, dupla camada, e ilustrada na Figura 2.28. 


Figura 2.28 


Disco de DVD de dupla face, dupla camada. 



Camada semirrefletiva 
Refletor de aluminio 


Refletor de aluminio 


Camada semirrefletiva 


O DVD foi arquitetado por um consorcio de dez fabricantes de eletronicos de consumo, sete deles japone- 
ses, em estreita colaboragao com os principais estudios de Hollywood (alguns dos quais sao de propriedade dos 
fabricantes de eletronicos japoneses pertencentes ao consorcio). As empresas de computadores e telecomunica- 
goes nao foram convidadas para o piquenique e o foco resultante foi o uso do DVD para locagao de filmes. Por 
exemplo, entre as caracterlsticas padrao esta a capacidade de sal tar cenas improprias em tempo real (o que per- 
mite que os pais transformem um filme proibido para menores de 18 anos em um filme que possa ser vis to por 
criancinhas), seis canais de som e suporte para Pan-and-Scan. Essa ultima caracterlstica permite que o tocador 
de DVD decida dinamicamente como recortar as extremidades direita e esquerda dos filmes (cuja relagao largura/ 
altura e 3:2) para que se ajustem aos tamanhos das telas de aparelhos de televisao atuais (cuja relagao e 4:3). 
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Outro item em que a industria de computadores provavelmente nao teria pensado e uma incompatibilidade 
intencional entre discos destinados aos Estados Unidos e discos destinados a Europa, e ainda outros padroes para outros 
continentes. Hollywood exigiu essa “caracterlstica” porque filmes novos sao sempre langados antes nos 
Estados Unidos e entao despachados para a Europa quando os videos comegam a sair do circuito comercial nos 
Estados Unidos. A ideia era garantir que as locadoras de video nao pudessem comprar videos nos Estados Unidos 
muito cedo, o que reduziria as receitas de filmes novos nos cinemas da Europa. Se Hollywood estivesse no con- 
trole na industria de computadores, terlamos disquetes de 3,5 polegadas nos Estados Unidos e disquetes de 9 cm 
na Europa. 

2.3.11 Blu-ray 

Nada fica parado no negocio de computadores, certamente nao na tecnologia de armazenagem. O DVD mal 
acabara de ser langado e seu sucessorja ameagava torna-lo obsoleto. O sucessor do DVD e o Blu-ray (raio azul), 
assim chamado porque usa um laser azul, em vez do vermelho usado por DVDs. Um laser azul tern comprimento 
de onda mais curto do que o laser vermelho, o que permite um foco mais preciso e, portanto, depressoes e pia¬ 
nos menores. Discos Blu-ray de uma face contem cerca de 25 GB de dados; os de dupla face contem cerca de 50 
GB. A taxa de dados e mais ou menos 4,5 MB/s, o que e bom para um disco optico, mas ainda insignificante em 
comparagao com discos magneticos (cf. ATAPI-6 a 100 MB/s e wide Ultra5 SCSI a 640 MB/s). Espera-se que, com 
o tempo, o Blu-ray substitua CD-ROMs e DVDs, mas essa transigao ainda levara alguns anos. 


2.4 Entrada/Smda 

Como mencionamos no inlcio deste capitulo, um sistema de computador tern tres componentes principais: 
a CPU, as memorias (primaria e secundaria) e os equipamentos de E/S (entrada/salda), ou I/O (Input/Output), 
como impressoras, scanners e modems. Ate aqui, so examinamos CPU e as memorias. Agora, e hora de examinar 
os equipamentos de E/S e como eles estao conectados ao restante do sistema. 

2.4.1 Barramentos 

A maioria dos computadores pessoais e estagoes de trabalho tern uma estrutura semelhante a mostrada 
na Figura 2.29. O arranjo comum e um gabinete de metal que contem uma grande placa de circuito impresso na 
parte inferior, denominada placa-mae (ou placa-pai, para os que preferirem). A placa-mae contem o chip da CPU, 
alguns encaixes para os modulos DIMM e varios chips de suporte. Contem tambem um barramento ao longo do 
comprimento e soquetes nos quais os conectores de borda das placas de E/S podem ser inseridos. 


Figura 2.29 Estrutura fisica de um computador pessoal. 
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A estrutura logica de um computador pessoal simples pode ser vista na Figura 2.30. Esse computador tem um 
unico barramento para conectar a CPU, a memoria e os equipamentos de E/S; a maioria dos sistemas tem dois ou 
mais barramentos. Cada dispositivo de E/S consiste em duas partes: uma que contem grande parte da eletronica, 
denominada controlador, outra que contem o dispositivo de E/S em si, tal como um drive de disco. O controlador 
esta em geral contido em uma placa que e ligada a um encaixe livre. Mesmo o monitor nao sendo opcional, o con¬ 
trolador de video as vezes esta localizado em uma placa de encaixe ( plug-in ) para permitir que o usuario escolha 
entre placas com ou sem aceleradores graficos, memoria extra e assim por diante. O controlador se conecta com 
seu dispositivo por um cabo ligado ao conector na parte de tras do gabinete. 


Figura 2.30 


Estrutura logica de um computador pessoal simples. 
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A fungao de um controlador e controlar seu dispositivo de E/S e manipular para ele o acesso ao barramento. 
Quando um programa quer dados do disco, por exemplo, ele envia um comando ao controlador de disco, que 
entao emite comandos de busca e outros comandos para o drive. Quando a trilha e o setor adequados forem loca- 
lizados, o drive comega a entregar dados ao controlador como um fluxo serial de bits. E fungao do controlador 
dividir o fluxo de bits em unidades e escrever cada uma delas na memoria, a medida que seja montada. Uma 
unidade tlpica e composta de uma ou mais palavras. Quando um controlador le ou escreve dados de ou para 
a memoria sem intervengao da CPU, diz-se que ele esta executando acesso direto a memoria (Direct Memory 
Access), mais conhecido por seu acronimo DMA. Concluida a transference, o controlador normalmente causa 
uma interrupgao, forgando a CPU a suspender de imediato o programa em execugao e comegar a rodar um proce- 
dimento especial, denominado rotina de interrupgao, para verificar erros, executar qualquer agao especial neces- 
saria e informar ao sistema operacional que a E/S agora esta concluida. Quando a rotina de interrupgao conclui 
sua tarefa, a CPU continua com o programa que foi suspenso quando ocorreu a interrupgao. 

O barramento nao e usado apenas pelos controladores de E/S, mas tambem pela CPU para buscar instrugoes 
e dados. O que acontece se a CPU e um controlador de E/S quiserem usar barramento ao mesmo tempo? A res- 
posta e que um chip, denominado arbitro de barramento, decide o que acontece em seguida. Em geral, e dada a 
preferencia aos dispositivos de E/S sobre a CPU, porque discos e outros dispositivos que estao em movimento nao 
podem ser interrompidos, e obriga-los a esperar resultaria em perda de dados. Quando nao ha nenhuma E/S em 
curso, a CPU pode ficar com todos os ciclos do barramento para si propria, para referenciar a memoria. Contudo, 
quando algum dispositivo de E/S tambem estiver executando, ele requisitara e tera acesso ao barramento sempre 
que precisar. Esse processo e denominado roubo de ciclo, e reduz a velocidade do computador. 

Esse projeto funcionou bem para os primeiros computadores pessoais, ja que todos os componentes estavam 
em certo equillbrio. Contudo, a medida que CPUs, memorias e dispositivos de E/S ficavam mais rapidos, surgiu 
um problema: o barramento nao dava mais conta da carga apresentada. Em um sistema fechado, tal como uma 
estagao de trabalho de engenharia, a solugao foi projetar um novo barramento mais rapido para o proximo modelo. 

















































Capitulo 2 • Organizacao de sistemas de computadores 


87 


Como ninguem nunca passava dispositivos de E/S de um modelo antigo para um novo, essa abordagem 
funcionou bem. 

Todavia, no mundo do PC, quern passava para uma CPU mais potente muitas vezes queria levar sua impres- 
sora, scanner e modem para o novo sistema. Alem disso, tinha-se desenvolvido uma imensa industria destinada a 
fornecer uma ampla gama de dispositivos de E/S para o barramento do IBM PC, e essa industria nao estava nem 
um pouco interessada em perder todo seu investimento e comegar de novo. A IBM aprendeu isso do modo mais 
diflcil quando langou o sucessor do IBM PC, a linha PS/2. O PS/2 tinha um barramento novo e mais rapido, mas 
a maioria dos fabricantes de clones continuava a usar o antigo barramento do PC, agora denominado barramento 
ISA (Industry Standard Architecture). A maioria dos fabricantes de discos e dispositivos de E/S continuou a 
fabricar controladores para ele, e a IBM se viu enfrentando a peculiar situagao de ser a unica fabricante de PCs 
que nao eram mais compatlveis com o PC da IBM. Com o tempo, a empresa foi forgada a dar suporte ao barra¬ 
mento ISA. Hoje, o barramento ISA e usado em sistemas legados e em museus de computador, pois foi substitu- 
ido por arquiteturas de barramento padrao mais novas e mais rapidas. Como um comentario a parte, favor no tar 
que ISA quer dizer Instruction Set Architecture (arquitetura do conjunto de instrugoes) no contexto de nlveis 
de maquina, ao passo que no contexto de barramentos quer dizer Industry Standard Architecture (arquitetura 
padrao da industria). 

• Os barramentos PCI e PCIe 

Nao obstante, a despeito da pressao do mercado para que nada mudasse, o antigo barramento era mesmo 
muito lento, portanto, era preciso fazer algo. Essa situagao levou outras empresas a desenvolver maquinas com 
multiplos barramentos, um dos quais era o antigo barramento ISA, ou seu sucessor compatlvel, o EISA (Extended 
ISA - ISA estendido). Agora, o mais popular deles e o barramento PCI (Peripheral Component Interconnect 
- interconexao de componentes perifericos). Esse barramento foi projetado pela Intel, mas a empresa decidiu 
passar todas as patentes para domlnio publico, a fim de incentivar toda a industria (incluindo seus concorrentes) 
a adota-lo. 

O barramento PCI pode ser usado em muitas configuragoes, mas a Figura 2.31 ilustra uma configuragao 
tlpica. Nesse caso, a CPU se comunica com um controlador de memoria por meio de uma conexao dedicada, de 
alta velocidade. O controlador se comunica diretamente com a memoria e com o barramento PCI, de modo que 
o trafego CPU-memoria nao passa pelo barramento PCI. Outros perifericos podem ser conectados diretamente 
ao barramento PCI. Uma maquina com esse projeto teria dois ou tres conectores PCI vazios, permitindo que os 
clientes conectem placas de E/S PCI para novos perifericos. 

Qualquer que seja a velocidade de algo no mundo da computagao, muita gente acha que ela e baixa. Esse 
destino tambem caiu sobre o barramento PCI, que esta sendo substituldo pelo PCI Express, abreviado como 
PCIe. A maior parte dos computadores modernos tern suporte para ele, de modo que os usuarios podem conectar 
dispositivos novos e velozes ao barramento PCIe e os mais antigos e mais lentos ao barramento PCI. 


Figura 2.31 PC tfpico montado em torno do barramento PCI. 0 controlador SCSI e um dispositivo PCI. 

Barramento de memoria 



l Barramento PCI 
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Enquanto o barramento PCI foi apenas uma atualizagao para o ISA mais antigo, com velocidades mais altas 
e mais bits transferidos em paralelo, o PCIe representa uma mudanga radical do PCI. Na verdade, ele sequer e 
um barramento. E uma rede ponto a ponto usando linhas de bits seriais e troca de pacotes, mais parecido com a 
Internet do que com um barramento tradicional. Sua arquitetura aparece na Figura 2.32. 


Figura 2.32 


Exemplo de arquitetura de um sistema PCIe com tres portas PCIe. 



Varias coisas se destacam de imediato sobre o PCIe. Primeiro, as conexoes entre os dispositivos sao seriais, 
ou seja, 1 bit de largura em vez de 8, 16, 32 ou 64 bits. Embora se possa pensar que uma conexao de 64 bits teria 
uma largura de banda mais alta do que uma conexao de 1 bit, na pratica, as diferengas no tempo de propagagao 
dos 64 bits, chamadas de skew (distorgao), significa que precisam ser usadas velocidades relativamente baixas. 
Com uma conexao serial, velocidades muito mais altas podem ser usadas, e isso compensa bastante a perda de 
paralelismo. Os barramentos PCI trabalham com uma taxa de clock maxima de 66 MHz. Com 64 bits transferidos 
por ciclo, a taxa de dados e de 528 MB/s. Com uma taxa de clock de 8 GHz, ate mesmo com transference serial, a 
taxa de dados do PCIe e de 1 GB/s. Alem do mais, os dispositivos nao estao limitados a um unico par de fios para 
se comunicarem com o complexo raiz ou com um switch. Um dispositivo pode ter ate 32 pares de fios, chamados 
de lanes (pistas). Essas pistas nao sao slncronas, de modo que a distorgao nao e importante aqui. A maioria das 
placas-mae tern um encaixe de 16 pistas para a placa grafica, que no PCIe 3.0 dara a placa grafica uma largura 
de banda de 16 GB/s, cerca de 30 vezes mais rapida do que uma placa grafica PCI pode oferecer. Essa largura de 
banda e necessaria para aplicagoes cada vez mais exigentes, como graficos em 3D. 

Segundo, toda a comunicagao e ponto a ponto. Quando a CPU quer falar com um dispositivo, ela lhe envia 
um pacote e, em geral, recebe uma resposta depois. O pacote passa pelo complexo raiz, que esta na placa-mae, 
e depois para o dispositivo, possivelmente por um switch (ou, se o dispositivo for um PCI, por uma ponte para 
PCI). Essa evolugao de um sistema em que todos os dispositivos escutavam o mesmo barramento para um que 
utiliza comunicagoes ponto a ponto e semelhante ao desenvolvimento das redes Ethernet (uma rede local muito 
popular), que tambem comegou com um canal de broadcast , mas agora utiliza switches para permitir a comuni¬ 
cagao ponto a ponto. 

2.4.2 Terminais 

Ha muitos tipos de dispositivos de E/S disponlveis. Alguns dos mais comuns sao discutidos a seguir. Terminais 
de computador consistem em duas partes: um teclado e um monitor. No mundo dos mainframes, essas partes 
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costumam ser integradas em um unico dispositivo ligado ao computador principal por uma linha serial ou por 
uma linha telefonica. Nos setores de reserva de passagens aereas, bancario e em outros setores que usam mainfra¬ 
mes , esses dispositivos ainda estao sendo usados. No mundo dos computadores pessoais, o teclado e o monitor 
sao dispositivos independentes. Qualquer que seja o caso, a tecnologia das duas partes e a mesma. 

• Tedados 

Ha uma grande variedade de teclados. O IBM PC original vinha com um teclado munido de um contato 
mecanico sob cada tecla, que dava retorno tatil e emitia um clique quando a tecla era apertada corretamente. Hoje, 
os teclados mais baratos tern teclas que fazem apenas contato mecanico quando acionados. Os melhores tern uma 
lamina de material elastometrico - especie de borracha - entre as teclas e a placa de circuito impresso que esta 
por baixo. Sob cada tecla ha uma pequena saliencia que cede quando pressionada corretamente. Um pontinho 
de material condutor dentro da saliencia fecha o circuito. Alguns teclados tern um Ima sob cada tecla, que passa 
por uma bobina quando pressionado, induzindo assim a uma corrente que pode ser detectada. Tambem ha varios 
outros metodos em uso, mecanicos e eletromagneticos. 

Em computadores pessoais, quando uma tecla e pressionada, uma interrupgao e gerada e a rotina de inter- 
rupgoes do teclado (uma parte do software do sistema operacional) e executada. A rotina de interrupgoes le um 
registrador de hardware dentro do controlador de teclado para pegar o numero da tecla (la 102) que acabou de 
ser pressionada. Quando a tecla e solta, ocorre uma segunda interrupgao. Assim, se um usuario pressionar SHIFT, 
e em seguida pressionar e soltar M, e depois soltar SHIFT, o sistema operacional pode ver que o usuario quer um 
“M”, e nao um “m”. O tratamento de sequencias de varias teclas envolvendo SHIFT, CTRF e AFT e todo feito em 
software (incluindo a abominavel sequencia CTRF-AFT-DEF, que e usada para reiniciar PCs). 

• Touch screens 

Embora os teclados nao oferegam perigo de atrapalhar a maquina de escrever manual, ha um novo sujeito 
na praga quando se trata de entrada do computador: uma touch screen (tela sensivel ao toque). Embora esses 
dispositivos so tenham se tornado itens do mercado de massa com a introdugao do iPhone da Apple em 2007, 
eles sao muito mais antigos. A primeira tela sensivel ao toque foi desenvolvida no Royal Radar Establishment, em 
Malvern, Gra-Bretanha, em 1965. Ate mesmo a capacidade de encolhimento na tela, tao anunciada pelo iPhone, 
vem do trabalho inicial na Universidade de Toronto em 1982. Desde entao, muitas tecnologias diferentes foram 
desenvolvidas e comercializadas. 

Dispositivos de toque podem ser encontrados em duas categorias: opacos e transparentes. Um dispositivo 
sensivel ao toque opaco e o touchpad de um notebook. Um dispositivo transparente tlpico e a tela de um smart¬ 
phone ou tablet. Vamos analisar apenas o segundo. Eles costumam ser chamados de touch screens. Os principais 
tipos de touch screens sao infravermelho, resistivo e capacitivo. 

As telas infravermelhas sao transmissores de infravermelho, como os diodos ou lasers emissores de luz 
infravermelha (por exemplo) nas bordas esquerda ou superior do engaste em torno da tela e detectores nas 
bordas direita e inferior. Quando um dedo, caneta ou qualquer objeto opaco bloqueia um ou mais raios, o 
detector correspondente sente a queda no sinal e o hardware do dispositivo pode dizer ao sistema operacional 
quais raios foram bloqueados, permitindo que ele calcule a coordenadas (x, y) do dedo ou caneta. Embora 
esses dispositivos ja tenham sido usados ha algum tempo em quiosques e outras aplicagoes, eles nao usados 
para dispositivos moveis. 

Outra tecnologia antiga consiste em touch screens resistivas. Estas consistem em duas camadas, sendo a 
superior flexlvel. Ela contem uma grande quantidade de fios horizontais. A inferior contem fios verticais. Quando 
um dedo ou outro objeto pressiona um ponto na tela, um ou mais dos fios entra em contato com os fios perpen- 
diculares na camada inferior. Os circuitos eletronicos do dispositivo possibilitam a leitura de qual area foi pres¬ 
sionada. Essas telas nao sao caras para se montar, e sao muito usadas em aplicagoes mais simples. 

As duas tecnologias sao boas quando a tela e pressionada por um dedo, mas tern um problema quando dois 
dedos sao usados. Para descrever a questao, usaremos a terminologia da touch screen infravermelha, mas a resistiva 
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tem a mesma dificuldade. Imagine que os dois dedos estejam em (3,3) e (8, 8). Como resultado, os feixes verti¬ 
cals x = 3 e x = 8 sao interrompidos, assim como os feixes horizontais y = 3 e y = 8. Agora, imagine um cenario 
diferente, com os dedos em (3, 8) e (8, 3), que sao os cantos opostos do retangulo cujos angulos sao (3, 3), (8, 
3), (8, 8) e (3, 8). Exatamente os mesmos feixes sao bloqueados, de modo que o software nao sabe qual dos dois 
cenarios e o correto. Esse problema e conhecido como ghosting. 

Para poder detectar varios dedos ao mesmo tempo - uma propriedade exigida para os gestos de encolhimento 
e expansao -, uma nova tecnologia foi necessaria. Aquela usada na maioria dos smartphones e tablets (mas nao em 
cameras digitais e outros dispositivos) e a touch screen capacitiva projetada. Existem varios tipos, mas o mais comum 
e o tipo de capacitancia mutua. Todas as touch screens que podem detectar dois ou mais pontos de contato ao 
mesmo tempo sao conhecidas como telas multitoque. Vejamos rapidamente como elas funcionam. 

Para os leitores que estao meio enferrujados em sua flsica do colegio, um capacitor e um dispositivo que 
pode armazenar carga eletrica. Um capacitor simples tem dois condutores separados por um isolador. Nas touch 
screens modernas, um padrao tipo grande com “fios” finos correndo verticalmente e separado de uma grade 
horizontal por uma camada isolante fina. Quando um dedo toca na tela, ela muda a capacitancia em todas as 
intersecgoes tocadas (possivelmente afastadas). Essa mudanga pode ser medida. Como uma demonstragao de que 
uma touch screen moderna nao e como as antigas telas infravermelhas e resistivas, tente tocar em uma com uma 
caneta, lapis, clipe de papel ou dedo com luva e voce vera que nada acontece. O corpo humano e bom para arma¬ 
zenar carga eletrica, como pode ser comprovado dolorosamente por qualquer um que ja tenha se arrastado por 
um tapete em um dia frio e seco e depois tocado em uma maganeta de metal. Instrumentos de plastico, madeira 
e metal nao sao tao bons quanto pessoas em termos de sua capacitancia. 

Os “fios” em uma touch screen nao sao os fios de cobre comuns, encontrados nos dispositivos eletricos 
normais, pois bloqueariam a luz da tela. Em vez disso, eles sao tiras finas (em geral, com 50 micra) de oxido de 
Indio-estanho condutor, ligadas em lados opostos de uma placa fina de vidro, que juntos formam os capacitores. 
Em alguns dispositivos mais novos, a placa de vidro isolante e substitulda por uma fina camada de dioxido de 
sillcio (areia!), com as tres camadas salpicadas (atomo por atomo) em algum substrato. De qualquer forma, os 
capacitores sao protegidos contra poeira e arranhoes por uma placa de vidro acima disso, para formar a superflcie 
da tela a ser tocada. Quanto mais fina a placa de vidro superior, mais sensivel e o desempenho, porem, mais fragil 
e o dispositivo. 

Em operagao, tensoes sao aplicadas alternadamente aos “fios” horizontal e vertical, enquanto os valores de 
tensao, que sao afetados pela capacitancia de cada intersecgao, sao lidos dos outros. Essa operagao e repetida 
muitas vezes por segundo, com as coordenadas tocadas sendo alimentadas no controlador do dispositivo como 
um fluxo de pares (x, y). Mais processamento, como determinar se ocorre apontamento, compressao, expressao 
ou toque, e feito pelo sistema operacional. Se voce usar todos os 10 dedos e pedir a um amigo para usar os dele, 
o sistema operacional tera mais trabalho, mas o hardware de toque multiplo podera realizar essa tarefa. 

• Monitores de tela plana 

Os primeiros monitores de computador usavam tubos de raios catodicos (CRTs - cathode ray tubes), assim 
como os antigos aparelhos de televisao. Eles eram muito volumosos e pesados para serem usados em notebooks, 
portanto, era preciso uma tecnologia completamente diferente para suas telas. O desenvolvimento de telas planas 
ofereceu um tamanho flsico necessario para os notebooks, e esses dispositivos tambem usavam menos potencia. 
Hoje, os beneflcios em tamanho e potencia do monitor de tela plana quase eliminaram o uso de monitores CRT. 

A mais comum tecnologia de monitor de tela plana e o LCD (Liquid Crystal Display - monitor de cristal 
liquido). E uma tecnologia de alta complexidade, tem muitas variagoes e esta mudando com grande rapidez, de 
modo que esta descrigao sera necessariamente breve e muito simplificada. 

Cristais llquidos sao moleculas organicas viscosas que fluem como um liquido, mas tambem tem estru- 
tura espacial, como um cristal. Foram descobertos por um botanico austrlaco, Friedrich Reinitzer, em 1888 e 
aplicados pela primeira vez em visores (por exemplo, de calculadoras e relogios) na decada de 1960. Quando 
todas as moleculas estao alinhadas na mesma diregao, as propriedades oticas do cristal dependem da diregao e 
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polarizagao da luz incidente. Usando um campo eletrico aplicado, o alinhamento molecular e, por conseguinte, 
as propriedades oticas, podem ser mudadas. Em particular, fazendo passar luz atraves de um cristal llquido, a 
intensidade da luz que sai dele pode ser controlada por meios eletricos. Essa propriedade pode ser explorada 
para construir monitores de tela plana. 

Uma tela de monitor de LCD consiste em duas placas de vidro paralelas entre as quais ha um volume 
selado que contem um cristal llquido. Eletrodos transparentes sao ligados a ambas as placas. Uma luz atras da 
placa traseira, natural ou artificial, ilumina a tela por tras. Os eletrodos transparentes ligados a cada placa sao 
usados para criar campos eletricos no cristal llquido. Diferentes partes da tela recebem tensoes eletricas dife- 
rentes para controlar a imagem apresentada. Colados as partes frontal e traseira da tela ha filtros de polarizagao 
(polaroides), pois a tecnologia do monitor requer a utilizagao de luz polarizada. A montagem geral e mostrada 
na Figura 2.33(a). 


Figura 2.33 


(a) Construct de uma tela de LCD. (b) Os sulcos nas placas traseira e frontal sao perpendiculares uns aos outros. 


Cristal llquido 




(b) 


Embora muitos tipos de monitores de LCD estejam em uso, agora vamos considerar um tipo particular 
de visor, o TN (Twisted Nematic - nematico torcido), como exemplo. Nesse monitor, a placa traseira contem 
minusculos sulcos horizontais, e a frontal, minusculos sulcos verticais, como ilustrado na Figura 2.33(b). Na 
ausencia de um campo eletrico, as moleculas do LCD tendem a se alinhar com os sulcos. Uma vez que os alinha- 
mentos frontal e traseiro estao a 90 graus entre si, as moleculas (e, portanto, a estrutura cristalina) ficam torcidas 
entre as placas traseira e frontal. 

Na parte de tras do monitor ha um polaroide horizontal que permite apenas a passagem de luz polarizada 
horizontalmente. Na parte da frente do visor ha um polaroide vertical que permite apenas a passagem de luz 
polarizada verticalmente. Se nao houvesse nenhum llquido presente entre as placas, a luz polarizada hori¬ 
zontalmente que entrasse pelo polaroide traseiro seria bloqueada pelo polaroide frontal, produzindo uma tela 
uniformemente negra. 

Contudo, a estrutura cristalina torcida das moleculas do LCD guia a luz na passagem e gira sua polarizagao, 
fazendo com que ela saia na vertical. Portanto, na ausencia de um campo eletrico, a tela de LCD e uniformemente 
brilhante. Aplicando uma tensao eletrica em partes selecionadas da placa, a estrutura torcida pode ser destrulda, 
bloqueando a luz nesses locais. 
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Ha dois esquemas que podem ser usados para aplicar a tensao eletrica. Em um monitor de matriz passiva (de 
baixo custo), ambos os eletrodos contem fios paralelos. Em um monitor de 1.920 x 1.080, por exemplo, o eletrodo 
traseiro poderia ter 1.920 fios verticais e o frontal poderia ter 1.080 horizontais. Aplicando-se uma tensao eletrica 
em um dos fios verticais e em seguida fazendo-se pulsar um dos horizontais, a tensao em uma posigao de pixel sele- 
cionada pode ser mudada, fazendo-a escurecer por um curto espago de tempo. Um pixel (aglutinagao das palavras 
“picture” e “element”) e um ponto colorido a partir do qual todas as imagens digitais sao construldas. Repetindo-se 
esse pulso para o proximo pixel e entao para o seguinte, pode-se pintar uma linha escura de varredura. Em geral, a 
tela inteira e pintada 60 vezes por segundo, para enganar o olho e faze-lo pensar que ali ha uma imagem constante. 

O outro esquema de ampla utilizagao e o monitor de matriz ativa. E mais caro, mas produz melhor imagem. 
Em vez de apenas dois conjuntos de fios perpendiculares, ele tern um minusculo elemento comutador em cada 
posigao de pixel em um dos eletrodos. Desligando e ligando esses elementos, pode-se criar um padrao de tensao 
eletrica arbitrario na tela, o que permite um padrao de bits tambem arbitrario. Os elementos cornutadores sao 
denominados transistores de pellcula fina (TFT - Thin Film Transistors) e os monitores de tela plana que os 
utilizam costumam ser denominados monitores TFT. Agora, a maioria dos notebooks e monitores de tela plana 
para desktops utiliza a tecnologia TFT. 

Ate aqui, descrevemos como funciona um monitor monocromatico. Basta dizer que monitores coloridos 
usam os mesmos princlpios gerais dos monocromaticos, mas os detalhes sao muito mais complicados. Filtros 
opticos sao usados para separar a luz branca em componentes vermelha, verde e azul em cada posigao de pixel, de 
modo que estes possam ser exibidos independentemente. Toda cor pode ser obtida por uma superposigao dessas 
tres cores primarias. 

Outras tecnologias de tela estao surgindo. Uma das mais promissoras e a tela OLED (Organic Light Emitting 
Diode - diodo organico emissor de luz). Ela consiste em camadas de moleculas organicas carregadas eletrica- 
mente, dispostas entre dois eletrodos em forma de sandulche. As mudangas de tensao fazem com que as molecu¬ 
las sejam excitadas e se movam para estados de energia mais altos. Quando elas retornam ao seu estado normal, 
emitem luz. Outros detalhes estao fora do escopo deste livro (e de seus autores). 

• RAM de video 

Quase todos os monitores sao renovados de 60 a 100 vezes por segundo por uma memoria especial, denominada 
RAM de video (memoria de acesso aleatorio de video), embutida na placa controladora do monitor. Essa memoria tern 
um ou mais mapas de bits que representam a imagem da tela. Em uma tela com, por exemplo, 1.920 x 1.080 elementos 
de imagem, denominados pixels, uma RAM de video conteria 1.920 x 1.080 valores, um para cada pixel Na verdade, 
ela poderia conter muitos desses mapas de bits, para permitir a passagem rapida de uma imagem para outra. 

Em um monitor comum, cada pixel seria representado como um valor RGB (red/green/blue) de 3 bytes, um 
para cada intensidade das componentes vermelha, verde e azul da cor do pixel (monitores de primeira linha usam 
10 ou mais bits por cor). Pelas leis da flsica, sabe-se que qualquer cor pode ser obtida por uma superposigao linear 
de luzes vermelha, verde e azul. 

Uma RAM de video com 1.920 x 1.080 pixels a 3 bytes/pixel requer mais de 6,2 MB para armazenar a imagem 
e uma boa quantidade de tempo de CPU para fazer qualquer coisa com ela. Por essa razao, alguns computadores 
adotam uma solugao de conciliagao usando um numero de 8 bits para indicar a cor desejada. Entao, esse numero 
e usado como um indice para uma tabela de hardware denominada paleta de cores, que contem 256 entradas, 
cada uma com um valor RGB de 24 bits. Esse projeto, denominado cor indexada, reduz em dois tergos o tamanho 
de memoria da RAM de video, mas permite somente 256 cores na tela ao mesmo tempo. Em geral, cada janela 
na tela tern seu proprio mapeamento. Porem, com apenas uma paleta de cores em hardware, quando ha varias 
janelas presentes, muitas vezes apenas a janela corrente apresenta suas cores corretamente. Paletas de cores com 
2 16 entradas tambem sao usadas, mas o ganho aqui e de apenas 1/3. 

Monitores de video com mapas de bits requerem grande quantidade de largura de banda. Para apresentar 
multimidia em tela cheia, com todas as cores em um monitor de 1.920 x 1.080, e preciso copiar 6,2 MB de dados 
para a RAM de video para cada quadro. Quando o video e de movimento total, e preciso uma taxa de no minimo 
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25 quadros por segundo, o que resulta uma taxa total de dados de 155 MB/s. Essa carga e mais do que o barra- 
mento PCI original podia manipular (132 MB/s), mas o PCIe pode tratar disso com facilidade. 

2.4.3 Mouses 

A medida que o tempo passa, os computadores estao sendo usados por pessoas menos versadas sobre o 
modo de funcionamento desses equipamentos. Maquinas da geragao ENIAC so eram empregadas pelas pessoas 
que as construlram. Na decada de 1950, computadores eram utilizados apenas por programadores profissionais 
altamente treinados. Agora, sao amplamente usados por pessoas que precisam fazer algum trabalho e nao sabem 
muito (ou nem querem saber) sobre como funcionam os computadores ou como sao programados. 

Antigamente, a maioria dos computadores tinha interfaces de linha de comando, para as quais os usuarios digi- 
tavam comandos. Vis to que quern nao e especialista quase sempre acha que interfaces de linha de comando nao sao 
amigaveis ao usuario - se nao absolutamente hostis -, muitos fabricantes desenvolveram interfaces do tipo “apontar e 
clicar”, tais como as do Macintosh e do Windows. Usar esse modelo pressupoe que haja um modo de apontar algo na 
tela. O meio mais comum de permitir que usuarios apontem algo na tela e um mouse. 

Um mouse e um caixinha de plastico que fica sobre a mesa, ao lado do teclado. Quando ela e movimentada 
sobre a mesa, um pequeno ponteiro tambem se movimenta na tela, permitindo que os usuarios apontem itens. O 
mouse tern um, dois ou tres botoes na parte de cima, que possibilitam aos usuarios selecionar itens apresentados 
em menus. Muita polemica ja se levantou por causa de discussoes sobre o numero de teclas que um mouse deve 
ter. Usuarios ingenuos preferem uma so (nao ha como apertar a tecla errada se houver apenas uma), mas os sofis- 
ticados gostam do poder conferido por varias teclas para fazer coisas imaginativas. 

Tres tipos de mouses foram produzidos: mecanicos, opticos e optico-mecanicos. Os primeiros tinham duas 
rodinhas de borracha para fora da parte inferior do corpo com eixos perpendiculares entre si. Quando o mouse 
era movimentado em paralelo com seu eixo principal, uma roda girava. Quando ele era movimentado ao longo 
da perpendicular de seu eixo principal, a outra roda girava. Cada rodinha comandava um resistor variavel (poten- 
ciometro). Medindo as alteragoes na resistencia era posslvel ver como cada roda tinha girado e assim calcular a 
distancia que o mouse tinha percorrido em cada diregao. Depois, esse projeto foi substituldo em grande parte por 
outro, no qual, em vez de rodinhas, era usada uma pequena esfera projetada um pouco para fora do fundo do 
mouse. Ele e mostrado na Figura 2.34. 


Figura 2.34 


Utilizacao do mouse para apontar itens de menu. 
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O segundo tipo de mouse e o optico. Esse tipo nao tem rodinhas nem esferas. Em vez delas, tern um LED 
(Light Emitting Diode - diodo emissor de luz) e um fotodetector na parte de baixo. Os primeiros mouses 
opticos exigiam uma almofada plastica especial que continha uma grade retangular de linhas espagadas muito 
proximas umas das outras para detectar quantas linhas tinham sido atravessadas e, assim, a que distancia o 
mouse se movimentou. Os mouses opticos modernos contem um LED que ilumina as imperfeigoes da superfl- 
cie, junto com uma pequena camera de video que registra uma pequena imagem (em geral, 18 x 18 pixels ) ate 
1.000 vezes por segundo. Imagens consecutivas sao comparadas para ver a que distancia o mouse se moveu. 
Alguns mouses opticos utilizam um laser no lugar de um LED para iluminagao. Eles sao mais precisos, mas 
tambem mais caros. 

O terceiro tipo de mouse e o optico-mecanico. Assim como o mouse mecanico mais novo, ele tem uma esfera 
que gira dois eixos alinhados a 90 graus em relagao um ao outro. Os eixos estao conectados a decodificadores com 
fendas que permitem a passagem da luz. Quando o mouse se movimenta, os eixos giram e pulsos de luz atingem 
os detectores sempre que aparece uma fenda entre um LED e seu detector. O numero de pulsos detectados e pro- 
porcional a quantidade de movimento. 

Embora mouses possam ser montados de varias maneiras, um arranjo comum e enviar uma sequencia de 3 
bytes ao computador toda vez que o mouse se movimenta a uma distancia minima (por exemplo, 0,01 polegada), 
as vezes denominada mickey. Em geral, esses caracteres vem em uma linha serial, um bit por vez. O primeiro byte 
contem um inteiro com sinal que informa quantas unidades o mouse se moveu na diregao x desde a ultima vez. 
O segundo da a mesma informagao para movimento na diregao y. O terceiro contem o estado corrente das teclas 
do mouse. As vezes, sao usados 2 bytes para cada coordenada. 

No computador, um software de baixo nivel aceita essas informagoes a medida que chegam e converte os 
movimentos relativos enviados pelo mouse em uma posigao absoluta. Em seguida, ele apresenta na tela uma 
seta correspondente a posigao onde o mouse esta. Quando a seta indicar o item adequado, o usuario clica no 
botao do mouse e entao o computador pode interpretar qual item foi selecionado, por saber onde a seta esta 
posicionada na tela. 

2.4.4 Controladores de jogos 

Os videogames costumam ter exigencias muito altas de E/S do usuario e, no mercado de console de video, 
dispositivos de entrada especializados tem sido desenvolvidos. Nesta segao, veremos dois desenvolvimentos 
recentes em controladores para videogame, o Nintendo Wiimote e o Microsoft Kinect. 

• Controlador Wiimote 

Langado em 2006 com o console de jogos Nintendo Wii, o controlador Wiimote contem botoes tradicionais 
para jogos e mais uma capacidade de sensibilidade dupla ao movimento. Todas as interagoes com o Wiimote 
sao enviadas em tempo real ao console de jogos, usando um radio Bluetooth interno. Os sensores de movimento 
no Wiimote permitem que ele sinta seu proprio movimento nas tres dimensoes e mais; quando apontado para a 
televisao, ele oferece uma capacidade minuciosa para apontar. 

A Figura 2.35 ilustra como o Wiimote executa essa fungao de sensibilidade ao movimento. O rastrea- 
mento do movimento do Wiimote em tres dimensoes e realizado com um acelerometro interno de 3 eixos. 
Esse dispositivo contem tres massas pequenas, cada qual podendo se mover nos eixos x, y e z (com relagao 
ao chip do acelerometro). Elas se movem em proporgao ao grau de aceleragao em seu eixo particular, o 
que muda a capacitancia da massa em relagao a uma parede fixa de metal. Medindo as tres capacitancias 
variaveis, e posslvel sentir a aceleragao em tres dimensoes. Usando essa tecnologia e algum calculo classico, 
o console Wii pode rastrear o movimento do Wiimote no espago. Ao movimentar o Wiimote para atingir 
uma bola de tenis virtual, esse movimento e rastreado enquanto voce se desloca em diregao a bola e, se voce 
virou o pulso no ultimo momento para atingir a bola por cima, os acelerometros do Wiimote tambem notarao 
esse movimento. 
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Figura 2.35 Sensores de movimento do controlador de videogame Wiimote. 



Embora os acelerometros funcionem bem para acompanhar o movimento do Wiimote enquanto ele se deslo- 
ca em tres dimensoes, eles nao podem oferecer a sensibilidade de movimento detalhada necessaria para controlar 
um ponteiro na tela da televisao. Os acelerometros sofrem com pequenos erros inevitaveis em suas medigoes de 
aceleragao, de modo que, com o tempo, o local exato do Wiimote (com base na integragao de suas aceleragoes) 
se tornara cada vez menos preciso. 

Para oferecer a sensibilidade de movimento com precisao, o Wiimote utiliza uma tecnologia de visao de 
computador inteligente. Acima da televisao ha uma “barra de sensor” que contem LEDs a uma distancia fixa. 
No Wiimote ha uma camera que, quando apontada na barra de sensor, pode deduzir a distancia e orientagao em 
relagao a televisao. Como os LEDs da barra de sensor estao afastados a certa distancia, sua distancia vista pelo 
Wiimote e proporcional aquela entre o Wiimote e a barra de sensor. O local da barra de sensor no campo de visao 
do Wiimote indica a diregao que este aponta em relagao a televisao. Observando essa orientagao continuamente, 
e posslvel dar suporte a uma capacidade de apontamento minucioso sem os erros de posigao inerentes aos ace¬ 
lerometros. 

• Controlador Kinect 

O Microsoft Kinect leva as capacidades de visao dos controladores de jogos a um nfvel inteiramente novo. 
Esse dispositivo usa apenas a visao do computador para determinar as interagoes do usuario com o console de 
jogos. Ele funciona sentindo a posigao do usuario na sala, mais a orientagao e o movimento de seu corpo. Os jogos 
sao controlados por movimentos predeterminados de suas maos, bragos e qualquer outra coisa que os projetistas 
do jogo acreditarem que voce deva mexer a fim de controlar seu jogo. 
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A capacidade de sentir do Kinect e baseada em uma camera de profundidade combinada com uma camera de 
video. A camera de profundidade calcula a distancia do objeto no campo de visao do Kinect. Ela faz isso emitindo 
uma matriz bidimensional de pontos a laser infravermelho, depois capturando seus reflexos com uma camera 
infravermelha. Usando uma tecnica de visao do computador chamada “iluminagao estruturada”, o Kinect pode 
determinar a distancia dos objetos em seu campo de visao com base em como o conjunto de pontos infraverme- 
lhos e agitado pelas superficies iluminadas. 

A informagao de profundidade e combinada com a informagao de textura retornada da camera de video 
para produzir um mapa de profundidade texturizado. Esse mapa pode entao ser processado pelos algoritmos 
de visao do computador para localizar a pessoa na sala (ate mesmo reconhecendo seus rostos) e a orientagao e 
movimento de seu corpo. Depois de processar, a informagao sobre as pessoas na sala e enviada ao console do 
jogo, que usa esses dados para controlar o videogame. 

2.4.5 Impressoras 

Apos o usuario preparar um documento ou buscar uma pagina na Web, muitas vezes quer imprimir seu 
trabalho, de modo que todos os computadores podem ser equipados com uma impressora. Nesta segao, descre- 
veremos alguns dos tipos mais comuns de impressoras. 

• Impressoras a laser 

Talvez o desenvolvimento mais interessante da impressao desde que Johann Gutenberg inventou o tipo 
movel no seculo XV e a impressora a laser. Esse dispositivo combina uma imagem de alta qualidade, excelente 
flexibilidade, grande velocidade e custo moderado em um unico periferico compacto. Impressoras a laser usam 
quase a mesma tecnologia das maquinas fotocopiadoras. Na verdade, muitas empresas fabricam equipamentos 
que combinam copia e impressao (e, as vezes, tambem fax). 

A tecnologia basica e ilustrada na Figura 2.36. O coragao da impressora e um tambor rotativo de precisao (ou 
uma correia, em alguns sistemas de primeira linha). No inicio de cada ciclo de pagina, ele recebe uma carga de ate 
cerca de 1.000 volts e e revestido com um material fotossensivel. Entao, a luz de um laser passa pelo comprimento 
do tambor, refletindo-a de um espelho octogonal rotativo. O feixe de luz e modulado para produzir um padrao de 
pontos escuros e claros. Os pontos atingidos pelo feixe perdem sua carga eletrica. 


Figura 2.36 


Operacao de uma impressora a laser. 
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Apos pin tar uma linha de pontos, o tambor gira uma fragao de um grau para permitir que a proxima linha 
seja pintada. Com o decorrer da rotagao, a primeira linha de pontos chega ao toner, um reservatorio que contem 
um po negro eletrostaticamente sensivel. O toner e atraldo por aqueles pontos que ainda estao carregados, for- 
mando uma imagem visual daquela linha. Um pouco mais adiante na trajetoria de transporte, o tambor revestido 
de toner e pressionado contra o papel, transferindo o po preto para ele. Em seguida, o papel passa por rolamentos 
aquecidos que fundem permanentemente o toner a superflcie do papel, fixando a imagem. Em um ponto mais 
adiante de sua rotagao, o tambor e descarregado e raspado para limpar qualquer reslduo de toner, preparando-o 
para receber nova carga eletrica e revestimento para imprimir a proxima pagina. 

Nem e preciso dizer que esse processo e uma combinagao extremamente complexa de flsica, qulmica, 
engenharia mecanica e engenharia otica. Ainda assim, ha varios fabricantes no mercado que oferecem conjuntos 
complexos denominados mecanismos de impressao. Fabricantes de impressoras a laser combinam os mecanis- 
mos de impressao com sua propria eletronica e software proprio para montar uma impressora completa. A parte 
eletronica consiste em uma CPU rapida embutida junto com megabytes de memoria para conter um mapa de bits 
de uma pagina inteira e numerosas fontes, algumas delas embutidas, outras carregadas por download. Grande 
parte das impressoras aceita comandos que descrevem as paginas a serem impressas (ao contrario de apenas 
aceitar mapas de bits preparados pela CPU principal). Esses comandos sao dados em linguagens como a PCL 
da HP e PostScript da Adobe ou PDF, que sao linguagens de programagao completas, embora especializadas. 

Impressoras a laser de 600 dpi ou mais podem executar um trabalho razoavel na impressao de fotografias em 
preto e branco, mas a tecnologia e mais complicada do que pode parecer a primeira vista. Considere uma fotogra- 
fia digitalizada em 600 dpi que deve ser impressa por uma impressora de 600 dpi. A imagem contem 600 x 600 
pixds/polegada, cada um consistindo em um valor de cinza que varia de 0 (branco) a 255 (preto). A impressora 
tambem pode imprimir 600 dpi, mas cada pixel impresso e ou preto ( toner presente) ou branco (nenhum toner 
presente). Valores cinza nao podem ser impressos. 

A solugao habitual para imprimir imagens com valores de cinza e usar a tecnica do meio-tom (reticula), a mesma 
empregada para imprimir cartazes comerciais. A imagem e desmembrada em celulas de meios-tons, em geral com 6 x 
6 pixels. Cada celula pode conter entre 0 e 36 pixels pretos. O olho percebe uma celula com muitos pixels como mais 
escura do que uma com menos pixels. Valores de cinza na faixa de 0 a 255 sao representados dividindo essa faixa em 
37 zonas. Valores de 0 a 6 estao na zona 0, valores de 7 a 13 estao na zona 1 e assim por diante (a zona 36 e um pouco 
menor do que as outras porque 256 nao e divislvel exatamente por 37). Sempre que e encontrado um valor de cinza 
na zona 0, sua celula de meio-tom sobre o papel e deixada em branco, como ilustrado na Figura 2.37(a). Um valor de 
zona 1 e impresso como 1 pixel negro. Um valor de zona 2 e impresso como 2 pixels negros, conforme mostra a Figura 
2.37(b). Outros valores de zonas sao mostrados nas figuras 2.37(c)-(f). Claro que pegar uma fotografia digitalizada 
a 600 dpi e usar essa tecnica de meio-tom reduz a resolugao efetiva a 100 celulas/polegada, denominada frequencia 
de tela de meio-tom, medida por convengao em lpi (lines per inch - linhas por polegada). 


Figura 2.37 Pontos de meio-tom para varias faixas de escala de cinza. (a) 0-6. (b) 14-20. (c) 28-34. (d) 56-62. (e) 105-111. 
(f) 161-167. 
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Impressao colorida 

Embora a maioria das impressoras a laser seja monocromatica, impressoras a laser coloridas estao se tor- 
nando mais comuns, de modo que talvez seja util dar aqui alguma explicagao sobre a impressao colorida (que 
tambem se aplica a impressoras a jato de tinta e outras). Como voce poderia imaginar, isso nao e trivial. Imagens 
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coloridas podem ser vistas de duas maneiras: por luz transmitida e por luz refletida. Imagens por luz transmiti- 
da, como as produzidas em monitores, sao compostas por superposigao linear das tres cores primarias aditivas: 
vermelho, verde e azul. 

Ao contrario, imagens por luz refletida, como fotografias em cores e fotos em revistas de papel lustroso, 
absorvem certos comprimentos de onda de luz e refletem o resto. Elas sao compostas por uma superposigao linear 
das tres cores subtrativas primarias, ciano (toda cor vermelha absorvida), magenta (toda cor verde absorvida) e 
amarela (toda cor azul absorvida). Em teoria, toda cor pode ser produzida misturando as tintas ciano, amarela e 
magenta. Na pratica, e diflcil conseguir essas tintas com pureza suficiente para absorver toda a luz e produzir um 
negro verdadeiro. Por essa razao, praticamente todos os sistemas de impressao em cores usam quatro tintas: ciano, 
magenta, amarela e negra. Esses sistemas sao denominados impressoras CMYK. OKe geralmente associado a 
cor negra ( blacK), porem, ele e a placa chave com a qual as placas de cores sao alinhadas em impressoras con- 
vencionais de quatro cores. Monitores, ao contrario, usam luz transmitida e o sistema RGB para produzir cores. 

O conjunto completo de cores que um monitor ou uma impressora podem produzir e denominado sua gama. 
Nenhum dispositivo tern uma gama que se iguale a do mundo real, ja que cada cor vem em 256 intensidades no 
maximo, o que da apenas 16.777.216 cores discretas. Imperfeigoes na tecnologia reduzem ainda mais esse total e 
as restantes nem sempre estao uniformemente espagadas no espectro de cores. Alem do mais, a percepgao da cor 
tern muito a ver com o modo de funcionamento dos bastoes e cones na retina, e nao apenas com a flsica da luz. 

Como consequencia dessas observagoes, converter uma imagem colorida que parece boa na tela em uma 
imagem impressa identica esta longe de ser trivial. Entre os problemas estao: 

1. Monitores em cores usam luz transmitida; impressoras em cores usam luz refletida. 

2. Monitores produzem 256 intensidades por cor; impressoras tern de usar meios-tons. 

3. Monitores tern um fundo negro; o papel tern um fundo claro. 

4. As gamas RGB de um monitor e as gamas CMYK de uma impressora sao diferentes. 


Obter imagens impressas em cores que reproduzem os tons do mundo real (ou ate mesmo os das imagens 
na tela) requer calibragao de dispositivos, software sofisticado e consideravel conhecimento tecnico e experiencia 
da parte do usuario. 

• Impressoras a jato de tinta 

Para impressao domestica de baixo custo, as impressoras a jato de tinta sao as favoritas. A cabega de impres¬ 
sao movel, que mantem os cartuchos de tinta, e varrida horizontalmente pelo papel por uma correia, enquanto a 
tinta e espirrada por minusculos esguichos. As gotlculas de tinta tern um volume de mais ou menos 1 picolitro, 
de modo que 100 milhoes delas formam uma unica gota d’agua. 

Impressoras a jato de tinta podem ter duas variedades: piezeletricas (usadas pela Epson) e termicas (usadas 
pela Canon, HP e Lexmark). As impressoras a jato de tinta piezeletricas possuem um tipo especial de cristal 
proximo de sua camara de tinta. Quando uma tensao eletrica e aplicada ao cristal, ela se deforma ligeiramente, 
forgando uma gotlcula de tinta a sair pelo esguicho. Quanto maior a tensao, maior a gotlcula, permitindo que o 
software controle seu tamanho. 

Impressoras a jato de tinta termicas (tambem chamadas impressoras a jato de bolhas) contem um minusculo 
resistor dentro de cada esguicho. Quando uma tensao eletrica e aplicada ao resistor, ele se aquece extremamente 
rapido, elevando de imediato a temperatura da tinta que encosta nele ate o ponto de ebuligao, ate que a tinta se 
vaporize para formar uma bolha de gas. A bolha de gas ocupa mais volume do que a tinta que a criou, produzindo 
pressao no esguicho. O unico lugar para onde a tinta pode sair e pela frente do esguicho, para o papel. O esguicho 
e entao resfriado e o vacuo resultante suga outra gota de tinta do cartucho. A velocidade da impressora e limitada 
pela velocidade com que o ciclo aquecer/resfriar pode ser repetido. As gotlculas sao todas do mesmo tamanho, 
mas menores do que as usadas pelas impressoras piezeletricas. 
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As impressoras a jato de tinta normalmente possuem resolugoes de pelo menos 1.200 dpi ( dots per inch - 
pontos por polegada) e, no maximo, 4.800 dpi. Elas sao baratas, silenciosas e possuem boa qualidade, apesar 
de tambem serem lentas, e utilizam cartuchos de tinta caros. Quando a melhor das impressoras a jato de tinta 
de alta qualidade e usada para imprimir fotografia em alta resolugao profissional com papel fotografico espe- 
cialmente lustroso, os resultados sao parecidos com a fotografia convencional, ate mesmo com impressoes de 
20 x 25 cm. 

Para obter melhores resultados, e preciso usar tinta e papel especiais. Tintas a base de corantes consistem em 
corantes coloridos dissolvidos em uma base fluida. Elas dao cores brilhantes e fluem com facilidade. Sua principal 
desvantagem e que desbotam quando expostas a luz ultravioleta, tal como a contida na luz solar. Tintas a base 
de pigmentos contem partlculas solidas de pigmentos suspensas em uma base fluida, que evapora do papel dei- 
xando ali o pigmento. Nao desbotam com o tempo, mas nao sao tao brilhantes como as tintas a base de corantes 
e as partlculas de pigmento tendem a entupir os bicos injetores, que requerem limpeza periodica. Para imprimir 
fotografias, e preciso papel lustroso ou revestido. Esses tipos de papel foram projetados especialmente para conter 
as gotlculas de tinta e nao permitir que elas se espalhem. 

• Impressoras especiais 

Embora impressoras a laser e a jato de tinta dominem os mercados de impressao domestico e de escritorio, 
outros tipos de impressoras sao usados em outras situagoes, com outros requisitos em termos de qualidade de 
cor, prego e outras caracterlsticas. 

Uma variante da impressora a jato de tinta e a impressora de tinta solida. Esse tipo de impressora aceita 
quatro blocos solidos de uma tinta especial a base de cera, que sao derretidos e passam para reservatorios de tinta 
quente. Os tempos de partida dessas impressoras podem chegar a 10 minutos, enquanto os blocos de tinta estao 
derretendo. A tinta quente e borrifada sobre o papel, onde se solidifica e se funde com o papel quando este e 
forgado a passar entre dois roletes rlgidos. De certa forma, ela combina a ideia de borrifar tinta das impressoras a 
jato de tinta com a ideia de fundir a tinta no papel com roletes de borracha rlgidos das impressoras a laser. 

Outro tipo de impressora em cores e a impressora a cera. Ela tern uma larga fita encerada em quatro cores, 
segmentada em faixas do tamanho de paginas. Milhares de elementos de aquecimento derretem a cera a medi- 
da que o papel passa por baixo dela. A cera se funde com o papel na forma de pixels usando o sistema CMYK. 
Impressoras a cera costumavam ser a principal tecnologia de impressao em cores, mas estao sendo substituldas 
pelos outros tipos cujos materiais de consumo sao mais baratos. 

Ainda outro tipo de impressora em cores e a impressora por sublimagao de corante, ou de tinta. Embora 
de a entender algo de freudiano, sublimagao e o nome cientlfico da passagem do estado solido para o gasoso sem 
passar pelo estado llquido. Gelo seco (dioxido de carbono congelado) e um material bem conhecido que sublima. 
Em uma impressora por sublimagao de tinta, uma base contendo os corantes CMYK passa sobre um cabegote de 
impressao termico que contem milhares de elementos de aquecimento programaveis. As tintas sao vaporizadas 
instantaneamente e absorvidas por um papel especial que esta proximo. Cada elemento de aquecimento pode 
produzir 256 temperaturas diferentes. Quanto mais alta a temperatura, mais corante e depositado e mais intensa 
e a cor. Diferente de todas as outras impressoras em cores, nessa sao posslveis cores praticamente contlnuas para 
cada pixel , de modo que o meio-tom nao e necessario. Pequenas impressoras de instantaneos muitas vezes usam o 
processo de sublimagao de tinta para produzir imagens fotograficas de alto grau de realismo sobre papel especial 
(e caro). 

Por fim, chegamos a impressora termica, que contem uma pequena cabega de impressao com alguma quan- 
tidade de minusculas agulhas que podem ser aquecidas. Quando uma corrente eletrica passa por uma agulha, ela 
se torna muito quente depressa. Quando um papel termicamente sensivel especial e empurrado pela cabega de 
impressao, os pontos sao feitos no papel quando as agulhas estao quentes. Com efeito, uma impressora termica e 
como as antigas impressoras matriciais, cujos pinos eram pressionados contra uma fita tipo maquina de escrever 
para formar os pontos de tinta no papel atras da fita. As impressoras termicas sao muito usadas para imprimir 
recibos em lojas, caixas eletronicos de banco, postos de gasolina automatizados etc. 
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2.4.6 Equipamento de telecomunicacoes 

Hoje, grande parte dos computadores esta ligada a uma rede de computadores, em geral a Internet. Para 
conseguir acesso, e preciso usar equipamento especial. Nesta segao, veremos como esse equipamento funciona. 

• Modems 

Com o crescimento da utilizagao de computadores nos ultimos anos, e comum que um computador pre¬ 
cise se comunicar com outro. Por exemplo, muitas pessoas tern em casa computadores pessoais que usam para 
se comunicar com o que esta em seu local de trabalho, com uma provedora de servigo de Internet (ISP - Internet 
Service Provider) ou com um sistema de home banking. Em muitos casos, a linha telefonica prove comunicagao flsica. 

Contudo, uma linha telefonica comum (ou cabo) nao e adequada para transmissao de sinais de computador 
que costumam representar um 0 como 0 volt e um 1 como 3 a 5 volts, conforme mostra a Figura 2.38(a). Sinais 
de dois nlveis sofrem consideravel distorgao quando transmitidos por uma linha telefonica projetada para voz, 
ocasionando erros de transmissao. Todavia, um sinal de onda senoidal pura em uma frequencia de 1.000 a 2.000 
Hz, denominada portadora, pode ser transmitido com relativamente pouca distorgao, e esse fa to e explorado 
como a base da maioria dos sistemas de telecomunicagao. 

Como as pulsagoes de uma onda senoidal sao totalmente previslveis, uma onda senoidal pura nao transmite 
nenhuma informagao. Contudo, variando a amplitude, frequencia ou fase, uma sequencia de Is e 0s pode ser 
transmitida, como mostra a Figura 2.38. Esse processo e denominado modulagao, e o dispositivo que faz isso 
e denominado modem, que significa MOdulador DEModulador. Na modulagao de amplitude (veja a Figura 
2.38(b)), sao usados dois nlveis de tensao eletrica (voltagem) para 0 e 1, respectivamente. Uma pessoa que esteja 
ouvindo dados transmitidos a uma taxa de dados muito baixa ouviria um ruldo alto para 1 e nenhum ruldo para 0. 

Em modulagao de frequencia (veja a Figura 2.38(c)), o nlvel de tensao eletrica (voltagem) e constante, 
mas a frequencia da portadora e diferente para 1 e para 0. Uma pessoa que estivesse ouvindo dados digitais 
com frequencia modulada ouviria dois tons, correspondentes a 0 e 1. A modulagao de frequencia costuma ser 
denominada modulagao por chaveamento de frequencia. 


Figura 2.38 Transmissao bit a bit do numero binario 01001011000100 por uma linha telefonica. (a) Sinai de dois nfveis. 
(b) Modulacao de amplitude, (c) Modulacao de frequencia. (d) Modulacao de fase. 
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Em modulagao de fase simples (veja Figura 2.38(d)), a amplitude e a frequencia nao mudam, mas a fase da 
portadora e invertida 180 graus quando os dados passam de 0 para 1 ou de 1 para 0. Em sistemas de fase modulada 
mais sofisticados, no inlcio de cada intervalo de tempo indivislvel, a fase da portadora e bruscamente mudada 
para 45, 135, 225 ou 315 graus, para permitir 2 bits por intervalo de tempo, denominado codificagao de fase 
dibit. Por exemplo, uma mudanga de fase de 45 graus poderia representar 00, uma mudanga de fase de 135 
graus poderia representar Ole assim por diante. Tambem existem outros esquemas para transmitir 3 ou mais 
bits por intervalo de tempo. O numero de intervalos de tempo, is to e, o numero de mudangas de sinal por 
segundo, e uma taxa de bauds. Com 2 ou mais bits por intervalo, a taxa de bits ultrapassara a taxa de bauds. 
Muitos confundem os dois termos. Novamente: a taxa de bauds e o numero de vezes que o sinal muda por 
segundo, enquanto a taxa de bits e o numero de bits transmitidos por segundo. A taxa de bits geralmente e um 
multiplo da taxa de bauds, mas teoricamente ela pode ser menor. 

Se os dados a serem transmitidos consistirem em uma serie de caracteres de 8 bits, seria desejavel ter uma 
conexao capaz de transmitir 8 bits simultaneamente - isto e, oito pares de fios. Como as linhas telefonicas ofe- 
recem apenas um canal, os bits tern de ser enviados de modo serial, um apos o outro (ou em grupos de dois se 
estiver sendo usada a codificagao dibit). O dispositivo que aceita caracteres de um computador na forma de sinais 
de dois nlveis, um bit por vez, e transmite os bits em grupos de um ou dois, em forma de amplitude, frequencia 
ou fase modulada, e o modem. Para marcar o inlcio e o final de cada caractere, e enviado um caractere de 8 bits 
precedido por um bit de inlcio e seguido por um bit de fim, totalizando 10 bits. 

O modem que esta transmitindo envia os bits individuals dentro de um caractere a intervalos de tempo 
regularmente espagados. Por exemplo, 9.600 bauds implica uma mudanga de sinal a cada 104 ps. Um segundo 
modem na extremidade receptora e usado para converter uma portadora modulada em um numero binario. Como 
os bits chegam ao receptor a intervalos regulares, uma vez que o modem receptor tenha determinado o inlcio do 
caractere, seu clock o informa quando amostrar a linha para ler os bits que estao entrando. 

Modems modernos funcionam a taxas de dados na faixa de 56 kbps, normalmente a taxas muito mais baixas. 
Eles usam uma combinagao de tecnicas para enviar multiplos bits por baud, modulando a amplitude, a frequencia 
e a fase. Quase todos eles sa o full-duplex, o que quer dizer que podem transmitir em ambas as diregoes ao mesmo 
tempo (usando frequences diferentes). Modems ou linhas de transmissao que so podem transmitir em uma dire¬ 
gao por vez (como uma ferrovia com uma unica linha que pode transportar trens em diregao ao norte ou trens em 
diregao ao sul, mas nao faze-lo ao mesmo tempo) sao denominados half-duplex. Linhas que so podem transmitir 
em uma diregao sao linhas simplex. 

• Linhas digitais de assinante (DSL - Digital Subscriber Lines) 

Quando a industria da telefonia chegou por fim aos 56 kbps, ela se congratulou por um trabalho bem-feito. 
Enquanto isso, a industria da TV a cabo estava oferecendo velocidades de ate 10 Mbps em cabos compartilhados e 
as operadoras de satelites estavam planejando oferecer mais de 50 Mbps. A medida que o acesso a Internet tornou- 
-se uma parte cada vez mais importante de seus negocios, as telcos (telephone companies - empresas de telefonia) 
comegaram a perceber que precisavam de um produto mais competitivo do que linhas discadas. A resposta dessas 
empresas foi comegar a oferecer um novo servigo digital de acesso a Internet. Servigos com mais largura de banda 
do que o servigo telefonico padrao as vezes sao denominados servigos de banda larga, embora, na realidade, o termo 
seja mais um conceito de marketing do que qualquer outra coisa. Por um ponto de vista estritamente tecnico, banda 
larga significa que existem varios canais de sinalizagao, enquanto banda base significa que ha somente um. Assim, 
teoricamente, a Ethernet a 10 gigabits, que e muito mais distante do que qualquer servigo de “banda larga” oferecido 
pela companhia telefonica, nao e banda larga de forma alguma, pois tern apenas um canal de sinalizagao. 

De inlcio, havia muitas ofertas que se sobrepunham, todas sob o mesmo nome geral de xDSL (Digital 
Subscriber Line), para varios x. Mais adiante, discutiremos o servigo que provavelmente vai se tornar o mais 
popular desses, o ADSL (Asymmetric DSL - DSL assimetrico). Visto que o ADSL ainda esta sendo desenvolvido 
e nem todos os padroes estao totalmente em vigor, alguns dos detalhes dados mais adiante podem mudar com 
o tempo, mas o quadro basico deve continuar valido. Para obter mais informagoes sobre ADSL, veja Summers, 
1999; e Vetter et ak, 2000. 
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A razao por que modems sao tao lentos e que os telefones foram inventados para transmitir a voz humana 
e todo o sistema foi cuidadosamente otimizado para essa finalidade. Dados sempre foram filhos adotivos. A 
linha, denominada loop local, de cada assinante da companhia telefonica e tradicionalmente limitada a cerca 
de 3.000 Hz por um filtro na central da empresa de telecomunicagoes. E esse filtro que limita a taxa de dados. 
A largura de banda real do loop local depende de seu comprimento, mas, para distancias tlpicas de alguns qui- 
lometros, 1,1 MHz e viavel. 

O metodo mais comum da oferta de ADSL e ilustrado na Figura 2.39. Na verdade, o que ele faz e remover o 
filtro e dividir o espectro disponlvel de 1,1 MHz no loop local em 256 canais independentes de 4.312,5 Hz cada. O 
canal 0 e usado para POTS (Plain Old Telephone Service - servigo telefonico normal). Os canais de 1 a 5 nao sao 
usados para evitar que o sinal de voz e os sinais de dados interfiram uns com os outros. Dos 250 canais restantes, 
um e usado para controle na diregao da empresa de telefonia e outro para controle na diregao do usuario. O res to 
esta disponlvel para dados do usuario. O ADSL equivale a ter 250 modems. 


Figura 2.39 Operacao de ADSL. 



Em princlpio, cada um dos canais remanescentes pode ser usado para um fluxo de dados full-duplex, mas, 
na pratica, harmonicos, linhas cruzadas e outros efeitos mantem os sistemas bem abaixo do limite teorico. Cabe 
ao provedor determinar quantos canais sao usados na diregao da empresa e quantos na diregao do usuario. Uma 
proporgao de 50-50 e tecnicamente posslvel, mas a maioria das provedoras aloca cerca de 80%-90% da largura 
de banda na diregao do usuario, uma vez que eles descarregam mais dados do que carregam. Essa opgao deu 
origem ao “A” em ADSL (de Assimetrico). Uma divisao comum sao 32 canais na diregao da empresa e o resto na 
diregao do usuario. 

A qualidade da linha e monitorada constantemente dentro de cada canal e a taxa de dados e ajustada confor- 
me necessario, portanto, canais diferentes podem ter taxas de dados diferentes. Os dados propriamente ditos sao 
enviados usando uma combinagao de modulagao de amplitude e de fase com ate 15 bits por baud. Por exemplo, 
com 224 canais na diregao do usuario e 15 bits/baud a 4.000 bauds, a largura de banda na diregao do usuario e 
13,44 Mbps. Na pratica, a relagao sinal/ruldo nunca e boa o suficiente para alcangar essa taxa, mas 4-8 Mbps e 
posslvel em distancias curtas por loops de alta qualidade. 

Uma configuragao ADSL tlpica e mostrada na Figura 2.40. Nesse esquema, o usuario ou um tecnico da com¬ 
panhia telefonica deve ins talar um NID (Network Interface Device - dispositivo de interface de rede) na casa 
ou escritorio do cliente. Essa caixinha de plastico marca o final da propriedade da companhia telefonica e o inlcio 
da propriedade do cliente. Proximo ao NID (ou as vezes combinado com ele) ha um divisor, um filtro analogico 
que separa a faixa de 0-4.000 Hz usada pelo POTS dos dados. O sinal do POTS e direcionado ao telefone ou apa- 
relho de fax e o sinal de dados e direcionado a um modem ADSL. Na verdade, o modem ADSL e um processador 
de sinais digitais que foi montado para agir como 250 modems funcionando em paralelo a frequences diferentes. 
Uma vez que a maioria dos modems ADSL e externa, o computador deve estar conectado a ele em alta velocidade. 
Isso costuma ser feito com a instalagao de uma placa Ethernet no computador e operagao de uma Ethernet muito 
curta de dois nos que contem apenas o computador e o modem ADSL. (Ethernet e um padrao de rede local popular 
e barato.) Por vezes, usa-se a porta USB em vez da Ethernet. Sem duvida, havera placas internas de modem ADSL 
disponlveis no futuro. 
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Figura 2.40 Configuracao tfpica de equipamento ADSL 



Na outra extremidade da linha, no lado da empresa telefonica esta instalado um divisor correspondente, no 
qual a parte da voz e filtrada e enviada ao cornutador de voz normal. O sinal acima de 26 kHz e direcionado para 
um novo tipo de dispositivo denominado DSLAM (Digital Subscriber Line Access Multiplexer - multiplexador 
de acesso de linha digital de assinante), que contem o mesmo tipo de processador de sinal digital que o modem 
ADSL. Uma vez recuperado o sinal digital em um fluxo de bits, sao formados pacotes e enviados a ISP. 

• Internet por cabo 

Muitas empresas de TV agora estao oferecendo acesso a Internet por meio de seus cabos. Como a tecnologia 
e muito diferente da ADSL, vale a pena fazer uma breve descrigao. Em cada cidade, a operadora por cabo tern 
uma central e uma grande quantidade de caixas cheias de dispositivos eletronicos denominados terminals de 
distribuigao ( headends ) distribuldos por todo o seu territorio. Os terminais de distribuigao estao conectados a 
central por cabos de alta largura de banda ou de fibra otica. 

Cada terminal tern um ou mais cabos que passam por centenas de casas e escritorios. Cada cliente da prove- 
dora por cabo esta ligado ao cabo que passa por sua casa ou escritorio. Assim, centenas de usuarios compartilham 
o mesmo cabo ate o terminal. Em geral, o cabo tern uma largura de banda de mais ou menos 750 MHz. Esse 
sistema e radicalmente diferente do ADSL porque cada usuario de telefone tern uma linha privada (isto e, nao 
compartilhada) com a central telefonica. Contudo, na pratica, ter seu proprio canal de 1,1 MHz com uma empresa 
de telefonia nao e muito diferente do que compartilhar uma porgao de 200 MHz do espectro do cabo que chega 
ao terminal com 400 usuarios, metade dos quais nao o estara usando em qualquer dado momento. Porem, isso 
significa que um usuario de Internet por cabo conseguira um servigo muito melhor as 4h00 do que as 16h00, 
enquanto o servigo ADSL e cons tan te durante o dia inteiro. Quern quiser obter um servigo ideal de Internet por 
cabo deveria se mudar para uma vizinhanga rica (casas mais afastadas uma da outra, portanto, menos usuarios 
por cabo) ou para um bairro pobre (onde ninguem pode pagar pelo servigo de Internet). 

Uma vez que o cabo e um meio compartilhado, determinar quern pode enviar quando e em qual frequencia 
e uma questao importante. Para ver como isso funciona, temos de fazer um breve resumo do modo de funciona- 
mento de uma TV a cabo. Nos Estados Unidos, os canais de televisao a cabo ocupam a regiao de 54 a 550 MHz 
(exceto para radio FM, de 88 a 108 MHz). Esses canais tern 6 MHz de largura, incluindo faixas de protegao para impe- 
dir vazamento de sinal entre canais. Na Europa, a extremidade baixa e normalmente 65 MHz e os canais tern de 6 a 8 
MHz de largura para a resolugao mais alta exigida por PAL e SEC AM; porem, quanto ao mais, o esquema de alocagao 
e similar. A porgao inferior da banda nao e usada para transmissao de televisao. 
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Quando as empresas por cabo langaram a Internet por cabo, tinham dois problemas a resolver: 

1. Como acrescentar acesso a Internet sem interferir com programas de TV 

2. Como ter trafego bidirecional quando os amplificadores sao inerentemente unidirecionais. 


As solugoes sao as seguintes. Cabos modernos tern uma largura de banda de pelo menos 550 MHz, muitas 
vezes ate 750 MHz ou mais. Os canais ascendentes (isto e, do usuario ao terminal de distribuigao) entram na 
faixa de 5-42 MHz (um pouco mais alta na Europa), e o trafego descendente (isto e, do terminal de distribuigao 
ao usuario) usa as frequences da extremidade alta, como ilustrado na Figura 2.41. 


Figura 2.41 Alocacao de frequencia em um sistema tfpico de TV a cabo usado para acesso a Internet. 


5 42 54 88 



Note que, como os sinais de TV sao todos descendentes, e posslvel usar amplificadores ascendentes que 
funcionam apenas na regiao de 5 a 42 MHz, e amplificadores descendentes que so funcionam a 54 MHz e acima, 
conforme mostra a figura. Assim, obtemos uma assimetria nas larguras de banda ascendente e descendente, por- 
que ha mais espectro disponlvel acima da banda da televisao do que abaixo dela. Por outro lado, a maior parte 
do trafego sera provavelmente na diregao descendente, portanto, as operadoras por cabo nao estao infelizes com 
essas coisas da vida. Como vimos antes, empresas de telefonia costumam oferecer um servigo DSL assimetrico, 
ainda que nao tenham nenhuma razao tecnica para faze-lo. 

O acesso a Internet requer um modem por cabo, um dispositivo que tern duas interfaces: uma com o compu- 
tador e outra com a rede a cabo. A interface computador -modem a cabo e direta. Em geral, e Ethernet, exatamente 
como na ADSL. No futuro, o modem inteiro podera se resumir a uma pequena placa inserida no computador, 
exatamente como nos antigos modems por telefone. 

A outra extremidade e mais complicada. Grande parte do padrao por cabo lida com engenharia de radio, uma 
questao que esta muito alem do escopo deste livro. A unica parte que vale a pena mencionar e que modems por 
cabo, assim como os ADSL, estao sempre ligados. Eles estabelecem uma conexao quando sao ligados e a mantem 
enquanto houver energia, porque operadoras por cabo nao cobram por tempo de conexao. 

Para entender melhor como elas funcionam, vamos ver o que acontece quando um modem por cabo e ins- 
talado e ligado. O modem faz uma varredura dos canais descendentes em busca de um pacote especial langado 
periodicamente pelo terminal de distribuigao para fornecer parametros do sistema aos modems que acabaram de 
entrar em linha. Quando achar esse pacote, o novo modem anuncia sua presenga em um dos canais ascendentes. O 
terminal de distribuigao responde designando o modem a seus canais ascendente e descendente. Essas designagoes 
podem ser mudadas mais tarde se o terminal de distribuigao achar necessario equilibrar a carga. 

O modem determina sua distancia em relagao ao terminal de distribuigao enviando um pacote especial e 
observando quanto tempo demora para obter uma resposta. Esse processo e denominado ranging. E importante 
que o modem conhega sua distancia para ajustar o modo como os canais ascendentes operam e para acertar sua 
temporizagao. Eles sao divididos em mini-intervalos de tempo. Cada pacote ascendente deve se ajustar a um ou 
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mais mini-intervalos de tempo consecutivos. O terminal de distribuigao anuncia periodicamente o inlcio de uma 
nova rodada de mini-intervalos, mas o tiro de largada nao e ouvido por todos os modems simultaneamente por 
causa do tempo de propagagao pelo cabo. Sabendo a que distancia esta do terminal de distribuigao, cada modem 
pode calcular ha quanto tempo o primeiro mini-intervalo de fa to comegou. O comprimento do mini-intervalo 
depende da rede. Uma carga util tlpica e 8 bytes. 

Durante a inicializagao, o terminal de distribuigao tambem designa cada modem a um mini-intervalo que sera 
usado para requisitar largura de banda ascendente. Como regra, multiplos modems serao designados ao mesmo 
mini-intervalo, o que leva a disputa. Quando um computador quer enviar um pacote, ele o transfere ao modem, 
que entao requisita o numero necessario de mini-intervalos para ele. Se a requisigao for aceita, o terminal de 
distribuigao manda um reconhecimento pelo canal descendente, informando ao modem quais mini-intervalos 
foram reservados para seu pacote. Entao, o pacote e enviado, comegando no mini-intervalo a ele alocado. Pacotes 
adicionais podem ser requisitados usando um campo no cabegalho. 

Por outro lado, se houver disputa para o mini-intervalo requisitado, nenhum reconhecimento sera enviado e 
o modem espera um tempo aleatorio, e tenta mais uma vez. Apos cada uma dessas tentativas sucessivas malsuce- 
didas, o tempo aleatorio e duplicado para distribuir a carga quando o trafego estiver pesado. 

Os canais descendentes sao gerenciados de modo diferente dos canais ascendentes. Uma razao e que ha so 
um remetente (o terminal de distribuigao), portanto, nao ha nenhuma disputa e nenhuma necessidade de mini- 
-intervalos que, na verdade, e apenas um modo de multiplexagao por divisao estatlstica. Outra razao e que o 
trafego descendente costuma ser muito maior do que o ascendente, portanto, e um pacote de tamanho fixo de 
204 bytes. Parte dele e um codigo de corregao de erros Reed-Solomon e algumas outras informagoes de controle, 
sobrando 184 bytes de carga util para o usuario. Esses numeros foram escolhidos por compatibilidade com a 
televisao digital, que usa MPEG-2, de modo que os canais de TV e os canais descendentes sejam formatados do 
mesmo modo. O aspecto logico das conexoes e mostrado na Figura 2.42. 


Figura 2.42 Detalhes tfpicos dos canais ascendente e descendente na America do Norte. QAM-64 (Quadrature Amplitude Modulation - 
modulacao de amplitude em quadratura) permite 6 bits/Hz, mas funciona somente em altas frequencies. QPSK (Quadrature 
Phase Shift Keying - modulacao por chaveamento de fase em quadratura) funciona em baixas frequbneias, mas permite 
apenas 2 bits/Hz. 


Cabo coaxial Canal descendente sem contencao: 27 Mbps 



9 Mbps usando QPSK e mini-intervalos de 
8 bytes 


Voltando a inicializagao do modem, uma vez conclulda a ranging e obtida a designagao de seu canal ascendente, 
canal descendente e mini-intervalo, ele esta liberado para comegar a enviar pacotes. Esses pacotes vao ate o terminal 
de distribuigao, que os re transmite por um canal dedicado ate a central da operadora por cabo e entao ate o ISP (que 
pode ser a propria empresa por cabo). O primeiro pacote e dirigido a ISP e requisita um enderego de rede (tecni- 
camente, um enderego IP) que e designado dinamicamente. O pacote tambem requisita e obtem um horario exato. 

A proxima etapa envolve seguranga. Uma vez que o cabo e um meio compartilhado, quern quiser se dar ao 
trabalho pode ler todo o trafego que passar por ele. Para evitar que qualquer um bisbilhote seus vizinhos (lite- 
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ralmente), todo o trafego e criptografado em ambas as diregoes. Parte do procedimento de inicializagao envolve 
estabelecer chaves criptograficas. A princlpio, poderlamos pensar que conseguir que dois estranhos, o terminal 
de distribuigao e o modem , combinem uma chave secreta em plena luz do dia com milhares de pessoas vigiando 
seria algo diflcil. Acontece que nao e, mas a tecnica usada (o algoritmo Diffie-Hellman) esta fora do escopo deste 
livro. Uma discussao sobre esse algoritmo e dada em Kaufman et al. (2002). 

Por fim, o modem tern de registrar (fazer login ) e fornecer seu identificador exclusivo pelo canal seguro. 
Nesse ponto, esta conclulda a inicializagao. Agora, o usuario pode se conectar com o ISP e comegar a trabalhar. 

Ha muito mais a ser dito sobre modems a cabo. Algumas references relevantes sao: Adams e Dulchinos, 2001; 
Donaldson e Jones, 2001; Dutta-Roy, 2001. 

2.4.7 Cameras digitais 

Uma utilizagao cada vez mais popular de computadores e a fotografia digital, o que transforma cameras 
digitais em uma especie de periferico de computador. Vamos descrever rapidamente como isso funciona. 
Todas as cameras tern uma lente que forma uma imagem do sujeito no fundo da camera. Em um equipamen- 
to convencional, o fundo da camera esta coberto por uma pellcula fotografica sobre a qual e formada uma 
imagem latente quando a luz a atinge. Essa imagem latente pode ficar visivel pela agao de certos produtos 
qulmicos presentes no llquido de revelagao, ou revelador. Uma camera digital funciona da mesma maneira, 
exceto que o filme e substituldo por um arranjo retangular de CCDs (Charge-Coupled Devices - disposi- 
tivos de carga acoplada) senslveis a luz. (Algumas cameras digitais usam CMOS [Complementary Metal- 
-Oxyde Semiconductor - semicondutor de oxido metalico complementar], mas aqui vamos nos concentrar 
nos CCDs, que sao mais comuns.) 

Quando a luz atinge um CCD, ele adquire uma carga eletrica. Quanto mais luz, mais carga. A carga pode ser 
lida em um conversor analogico para digital como um inteiro de 0 a 255 (em cameras mais baratas) ou de 0 a 
4.095 (em cameras reflex digitais de uma lente). A configuragao basica e mostrada na Figura 2.43. 


Figura 2.43 


Camera digital. 
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Cada CCD produz um unico valor, independente da cor da luz que o atinge. Para formar imagens colo- 
ridas, os CCDs sao organizados em grupos de quatro elementos. Um filtro Bayer e colocado no topo do 
CCD de modo a permitir que somente a luz vermelha atinja um dos quatro em cada grupo, apenas a luz azul 
atinja um outro e so a luz verde atinja os outros dois. Sao usados dois CCDs para a luz verde porque utilizar 
quatro CCDs para representar um pixel e muito mais conveniente do que usar tres, e o olho e mais senslvel 
a luz verde do que a vermelha ou a azul. Quando um fabricante afirma que uma camera tern, por exemplo, 
6 milhoes de pixels , ele esta mentindo. A camera tern 6 milhoes de CCDs que, juntos, formam 1,5 milhao 
de pixels. A imagem sera lida como um arranjo de 2.828 x 2.121 pixels (em cameras de baixo prego) ou de 
3.000 x 2.000 pixels (em SLRs digitais), mas os pixels extras sao produzidos por interpolagao pelo software 
dentro da camera. 

Quando o botao do obturador da camera e pressionado, o software no equipamento realiza tres tare- 
fas: ajusta o foco, determina a exposigao e efetua o equillbrio do branco. O autofoco funciona analisando a 
informagao de alta frequencia na imagem e entao movimentando a lente ate que ela seja maximizada, para 
dar o maximo de detalhe. A exposigao e determinada medindo a luz que cai sobre os CCDs e entao ajustando 
o diafragma da lente e o tempo de exposigao para fazer a intensidade da luz cair no meio da faixa de alcance 
dos CCDs. Ajustar o equillbrio do branco tern a ver com medir o espectro da luz incidente para efetuar as 
necessarias corregoes de cor mais tarde. 

Entao, a imagem e lida com base nos CCDs e armazenada como um arranjo de pixels na RAM interna da 
camera. SLRs de primeira linha usados por fotojornabstas podem fotografar oito quadros de alta resolugao por 
segundo por 5 segundos, e precisam de cerca de 1 GB de RAM interna para armazenar as imagens antes de 
processa-las e armazena-las permanentemente. Cameras mais baratas tern menos RAM, mas ainda assim tern boa 
quantidade. 

Na fase de pos-captura, o software da camera aplica corregao da cor por equillbrio do branco para compensar 
a luz avermelhada ou azulada (por exemplo, de um objeto na sombra ou da utilizagao de um flash). Em seguida, 
ele aplica um algoritmo para reduzir ruldo e outro para compensar CCDs defeituosos. Logo apos, o software 
tenta dar melhor definigao a imagem (a menos que essa caracterlstica esteja desativada), procurando contornos e 
aumentando o gradiente de intensidade ao redor deles. 

Por fim, a imagem pode ser comprimida para reduzir a quantidade de armazenagem requerida. Um formato 
comum e o JPEG (Joint Photographic Experts Group - grupo associado de especialistas em fotografia), no qual 
uma transformada de Fourier espacial bidimensional e aplicada e alguns dos componentes de alta frequencia sao 
omitidos. O resultado dessa transformagao e que a imagem requer um numero menor de bits de armazenagem, 
mas perdem-se os detalhes mais sutis. 

Quando todo processamento interno a camera estiver concluldo, a imagem e gravada no meio de armaze¬ 
nagem, em geral uma memoria rapida ou um minusculo disco rlgido removlvel denominado microdrive. O pos- 
-processamento e a gravagao podem levar varios segundos por imagem. 

Quando o usuario chega em casa, a camera pode ser conectada a um computador, em geral usando, por 
exemplo, uma entrada USB ou um cabo especlfico. Entao, as imagens sao transferidas da camera para o disco 
rlgido do computador. Usando software especial, tal como o Adobe Photoshop, o usuario pode recortar a imagem, 
ajustar brilho, contraste e equillbrio de cor, destacar, escurecer ou remover porgoes da imagem e aplicar diversos 
filtros. Quando ele estiver contente com o resultado, os arquivos podem ser impressos em uma impressora em 
cores, enviados pela Internet a uma loja especializada para fazer o acabamento ou gravados em um CD-ROM ou 
DVD para armazenagem em arquivo e subsequente impressao. 

A quantidade de capacidade computacional, RAM, espago em disco rlgido e software em uma camera digital 
SLR e estarrecedora. Alem de o computador ter de fazer todas as coisas mencionadas, ainda precisa se comunicar 
com a CPU na lente e com a CPU na memoria rapida, renovar a imagem na tela LCD e gerenciar todos os botoes, 
engrenagens, luzes, mostradores e dispositivos da camera em tempo real. Esse sistema embutido e extremamente 
poderoso e muitas vezes rivaliza com um computador de mesa de apenas alguns anos atras. 
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2.4.8 Codigos de caracteres 

Cada computador tem um conjunto de caracteres que ele usa. O conjunto mlnimo contem as 26 letras 
maiusculas, as 26 letras minusculas, os algarismos de 0 a 9 e um conjunto de slmbolos especiais, como espago, 
sinal de menos, vlrgula e retorno ao inlcio da linha. 

Para transferir esses caracteres para o computador, um numero e designado a cada um, por exemplo, a 
= 1, b = 2, ..., z = 26, + = 27, - = 28. O mapeamento de caracteres para numeros inteiros e denominado codigo 
de caracteres. E essencial que computadores que se comunicam usem o mesmo codigo ou nao conseguirao se 
entender. Por essa razao, foram desenvolvidos padroes. A seguir, examinaremos dois dos mais importantes. 

• ASCII 

Um codigo de ampla utilizagao e denominado ASCII (American Standard Code for Information Interchange - 
codigo padrao americano para troca de informagoes). Cada caractere ASCII tem 7 bits, o que permite 128 
caracteres no total. Porem, como os computadores sao orientados a byte, cada caractere ASCII e armazenado em 
um byte separado. A Figura 2.44 mostra o codigo ASCII. Os codigos de 0 a IF (hexadecimal) sao caracteres de 
controle e nao sao impressos. Os codigos de 128 a 255 nao fazem parte do ASCII, mas o IBM PC os definiu para 
serem caracteres especiais, como os smileys , e a maioria dos computadores tem suporte para eles. 


Figura 2.44 


0 conjunto de caracteres ASCII. 
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Muitos dos caracteres de controle ASCII sao destinados a transmissao de dados. Por exemplo, uma men- 
sagem pode ser composta de um caractere SOH (start of header - inlcio de cabegalho), um caractere STX (start 
of text - inlcio de texto), o texto em si, um caractere ETX (end of text - fim do texto) e entao um caractere EOT 
(end of transmission - fim da transmissao). Contudo, na pratica, as mensagens enviadas por linhas telefonicas e 
redes sao formatadas de modo muito diferente, de modo que os caracteres ASCII de controle de transmissao ja 
nao sao muito usados. 

Os caracteres de impressao ASCII sao diretos. Incluem as letras maiusculas e minusculas, dlgitos, sinais de 
pontuagao e alguns slmbolos matematicos. 

• Unicode 

A industria do computador se desenvolveu em grande parte nos Estados Unidos, o que levou ao conjunto 
de caracteres ASCII. Esse codigo e bom para a lingua inglesa, mas nao tao bom para outros idiomas. O frances 
precisa de acentos (por exemplo, systeme ); o alemao precisa de sinais diacrlticos (por exemplo, fur) e assim por 
diante. Algumas llnguas europeias tern certas letras que nao se encontram no ASCII, tais como a alema Bea 
dinamarquesa 0 . Alguns idiomas tern alfabetos inteiramente diferentes (por exemplo, russo e arabe), e algumas 
poucas llnguas nao tern alfabeto algum (por exemplo, a chinesa). Como os computadores se espalharam pelos 
quatro cantos do mundo e como os fabricantes de software querem vender produtos em palses onde a maioria 
dos usuarios nao fala ingles, e preciso um novo conjunto de caracteres. 

A primeira tentativa de ampliar o ASCII foi o IS 646, que acrescentou mais 128 caracteres ao ASCII, trans- 
formando-o em um codigo de 8 bits denominado Latin-1. A maioria dos caracteres adicionais eram letras latinas 
com acentos e sinais diacrlticos. A proxima tentativa foi o IS 8859, que introduziu o conceito de uma pagina de 
codigo, um conjunto de 256 caracteres para um idioma particular ou grupo de idiomas. O IS 8859-1 e Latin-1. 
O IS 8859-2 trata dos idiomas eslavos baseados no latim (por exemplo, tcheco, polones e hungaro). O IS 8859-3 
contem os caracteres necessarios para os idiomas turco, maltes, esperanto, galego e assim por diante. O problema 
da abordagem da pagina de codigo e que o software tern de manter controle da pagina em que esta; e imposslvel 
misturar idiomas nas paginas e o esquema nao cobre a lingua japonesa nem a chinesa. 

Um grupo de empresas de computadores resolveu esse problema formando um consorcio para criar um novo 
sistema, denominado Unicode, e transformando-o em um Padrao Internacional (IS 10646). Agora, o Unicode e 
suportado por algumas linguagens de programagao (por exemplo, Java), alguns sistemas operacionais (por exem¬ 
plo, Windows) e muitas aplicagoes. 

A ideia que fundamenta o Unicode e designar a cada caractere e slmbolo um valor unico de 16 bits, deno¬ 
minado ponto de codigo. Nao sao usados caracteres multibytes nem sequencias de escape. Slmbolos de 16 bits 
simplificam a escrita do software. 

Com slmbolos de 16 bits, o Unicode tern 65.536 pontos de codigo. Visto que todos os idiomas do mundo usam 
cerca de 200 mil slmbolos, os pontos de codigo sao um recurso escasso que deve ser alocado com grande cuidado. 
Para acelerar a aceitagao do Unicode, o consorcio teve a brilhante ideia de usar Latin-1 como pontos de codigo 0 a 
255, o que facilita a conversao entre ASCII e Unicode. Para evitar desperdigar pontos de codigo, cada sinal diacrltico 
tern seu proprio ponto de codigo. Cabe ao software combinar sinais diacrlticos com seus vizinhos para formar novos 
caracteres. Embora isso aumente o trabalho do software, economiza preciosos pontos de codigo. 
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O espago do ponto de codigo e dividido em blocos, cada qual um multiplo de 16 pontos de codigo. Todo alfa- 
beto importante em Unicode tem uma sequencia de zonas consecutivas. Alguns exemplos (e o numero de pontos 
de codigo alocados) sao latim (336), grego (144), cirllico (256), armenio (96), hebraico (112), devanagari (128), 
gurmuqui (128), oria (128), telugo (128) e canara (128). Note que cada um desses idiomas recebeu um numero 
maior de pontos de codigo do que numero de letras que possui. Essa opgao foi escolhida em parte porque muitas 
llnguas tem varias formas para cada letra. Por exemplo, cada letra em portugues tem duas formas - minuscula e 
MAIUSCULA. Alguns idiomas tem tres ou mais formas, possivelmente dependendo de a letra estar no inlcio, no 
meio ou no final de uma palavra. 

Alem desses alfabetos, foram designados pontos de codigo para sinais diacrlticos (112), sinais de pontuagao 
(112), subscritos e sobrescritos (48), slmbolos monetarios (48), slmbolos matematicos (256), formas geome- 
tricas (96) e sinais variados ( dingbats ) (192). 

Depois desses, vem os slmbolos necessarios para as llnguas chinesa, japonesa e coreana. Primeiro, ha 1.024 
slmbolos foneticos (por exemplo, katakana e bopomojo) e, em seguida, os ideogramas han unificados (20.992) 
usados em chines e japones, e as sllabas hangul do idioma coreano (11.156). 

Para permitir que os usuarios inventem caracteres especiais para finalidades especiais, 6.400 pontos de codi¬ 
go foram designados para uso local. 

Embora o Unicode solucione muitas dificuldades associadas com a internacionalizagao, ele nao resolve (nem 
tenta resolver) todos os problemas do mundo. Por exemplo, enquanto o alfabeto latino esta em ordem alfabetica, 
os ideogramas han nao estao na ordem do dicionario. Por conseguinte, um programa em ingles pode procurar cat 
e dog em ordem alfabetica simplesmente comparando o valor Unicode de seu primeiro caractere. Um programa 
em japones precisa de tabelas externas para interpretar qual dos dois slmbolos vem antes do outro no dicionario. 

Outra questao e que surgem novas palavras o tempo todo. Ha 50 anos ninguem falava de applets , ciberespago, 
gigabytes, lasers, modems , smileys ou videoteipes. Acrescentar novas palavras em ingles nao requer novos pontos 
de codigo, mas adiciona-las em japones, sim. Alem de novas palavras tecnicas, ha uma demanda para adicionar 
no mlnimo 20 mil novos nomes de pessoas e lugares (a maioria Chineses). Os cegos acham que o braille deveria 
estar presente e grupos de interesse especial de todos os tipos querem o que entendem como pontos de codigo a 
que tem direito. O consorcio Unicode estuda e decide todas as novas propostas. 

O Unicode usa o mesmo ponto de codigo para caracteres que parecem quase identicos mas tem significados 
diferentes ou sao escritos de maneira ligeiramente diferente em japones e chines (como se processadores de texto 
em ingles sempre escrevessem blue como blew, porque tem o mesmo som). Ha quern considere isso uma otimizagao 
para economizar pontos de codigo escassos; outros o veem como imperialismo cultural anglo-saxao (e voce acha que 
designar 16 bits para caracteres nao foi uma decisao muito polltica?). Para piorar as coisas, um dicionario japones 
completo tem 50 mil kanji (excluindo nomes), portanto, com apenas 20.992 pontos de codigo disponlveis para os 
ideogramas han, escolhas tiveram de ser feitas. Nem todos os japoneses acham que um consorcio de fabricantes de 
computadores - mesmo que alguns deles sejam japoneses - e o forum ideal para fazer essas escolhas. 

Adivinha so: 65.536 pontos de codigo nao foram suficientes para satisfazer a todos, de modo que, em 1996, 
16 pianos adicionais de 16 bits cada foram acrescentados, expandindo o numero total de caracteres para 1.114.112. 

• UTF-8 

Embora melhor que o ASCII, o Unicode por fim esgotou os pontos de codigo e tambem requer 16 bits por 
caractere para representar o texto ASCII puro, o que e um desperdlcio. Por conseguinte, outro esquema de codifi- 
cagao foi desenvolvido para resolver essas questoes. Ele e denominado Formato de Transformagao UTF-8 UCS, 
em que UCS significa Universal Character Set (conjunto de caracteres universal), que e Unicode na essencia. 
Codigos UTF-8 tem tamanho variavel, de 1 a 4 bytes, e podem codificar cerca de dois bilhoes de caracteres. Ele 
e o conjunto de caracteres dominante em uso na Web. 

Uma das propriedades interessantes do UTF-8 e que os codigos de 0 a 127 sao os caracteres ASCII, permitin- 
do que sejam expressos em 1 byte (contra os 2 bytes do Unicode). Para caracteres que nao sao ASCII, o bit de aha 
ordem do primeiro byte e definido como 1, indicando que virao 1 ou mais bytes adicionais. No fim, seis formatos 
diferentes sao usados, conforme ilustra a Figura 2.45. Os bits marcados com “d” sao bits de dados. 
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Figura 2.45 0 esquema de codificacao UTF-8. 



O UTF-8 tem uma serie de vantagens em relagao ao Unicode e outros esquemas. Primeiro, se um programa 
ou documento utiliza apenas caracteres que estao no conjunto ASCII, cada um pode ser representado em 8 bits. 
Segundo, o primeiro byte de cada caractere UTF-8 determina exclusivamente o numero de bytes deste. Terceiro, 
os bytes de continuagao em um caractere UTF-8 sempre comegam com 10, enquanto o byte inicial nunca comega 
assim, tornando o codigo autossincronizavel. Em particular, no caso de um erro de comunicagao ou memoria, 
sempre e posslvel prosseguir e achar o inlcio do proximo caractere (supondo que ele nao tenha sido danificado). 

Em geral, o UTF-8 e usado para codificar apenas os 17 pianos Unicode, embora o esquema tenha muito 
mais de 1.114.112 pontos de codigo. Porem, se os antropologos descobrirem novas tribos em Nova Guine (ou em 
outro lugar) cujos idiomas ainda nao sejam conhecidos (ou se, no futuro, fizermos contato com extraterrestres), 
o UTF-8 conseguira acrescentar seus alfabetos ou ideogramas. 


2.5 Resumo 

Sistemas de computadores sao compostos por tres tipos de componentes: processadores, memorias e dispo- 
sitivos de E/S. A tarefa de um processador e buscar instrugoes, uma por vez, em uma memoria, decodifica-las e 
executa-las. O ciclo busca-decodificagao-execugao pode ser descrito como um algoritmo e, na verdade, as vezes ele 
e executado por um interpretador de software que roda em um nlvel mais baixo. Para ganhar velocidade, muitos 
computadores agora tem um ou mais pipelines (paralelismo) ou tem um projeto superescalar com multiplas uni- 
dades funcionais que funcionam em paralelo. Um pipeline permite que uma instrugao seja dividida em etapas e as 
etapas para diferentes instrugoes sejam executadas ao mesmo tempo. Multiplas unidades funcionais e outra forma 
de obter paralelismo sem afetar o conjunto de instrugoes ou a arquitetura visivel ao programador ou compilador. 

Sistemas com varios processadores sao cada vez mais comuns. Computadores paralelos incluem processa¬ 
dores matriciais, nos quais a mesma operagao e efetuada sobre multiplos conjuntos de dados ao mesmo tempo; 
multiprocessadores, nos quais varias CPUs compartilham uma memoria; e multicomputadores, nos quais cada 
um dos varios computadores tem sua propria memoria, mas se comunicam passando mensagens. 

Memorias podem ser categorizadas como primarias ou secundarias. A memoria primaria e usada para conter o 
programa que esta sendo executado no momento. Seu tempo de acesso e curto - algumas poucas dezenas de nanos- 
segundos, no maximo - e independe do enderego que esta sendo acessado. Caches reduzem ainda mais esse tempo 
de acesso. Eles sao necessarios porque as velocidades do processador sao muito maiores do que as velocidades da 
memoria, o que significa que ter de esperar pelos acessos a memoria o tempo todo atrasa bastante a execugao 
do processador. Algumas memorias sao equipadas com codigos de corregao de erros para aumentar a confiabilidade. 

Memorias secundarias, ao contrario, tem tempos de acesso muito mais longos (milissegundos ou mais) e 
dependem da localizagao dos dados que estao sendo lidos ou escritos. Fitas, discos magneticos e discos opticos 
sao as memorias secundarias mais comuns. Ha muitas variedades de discos magneticos, incluindo discos IDE, 
discos SCSI e RAIDs. Entre os discos opticos figuram CD-ROMs, CD-Rs, DVDs e Blu-rays. 
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Dispositivos de E/S sao usados para transferir informagoes para dentro e para fora do computador. Entao, sao 
conectados ao processador e a memoria por um ou mais barramentos. Alguns exemplos sao terminais, mouses, 
impressoras e modems. A maioria dos dispositivos de E/S usa o codigo de caracteres ASCII, embora o Unicode 
tambem seja usado e o UTF -8 esteja ganhando rapida aceitagao a medida que a industria de computadores se 
volta mais para a Web. 


Problemas 


1. Considere a operagao de uma maquina que tenha 
o caminho de dados da Figura 2.2. Suponha que 
carregar os registradores de entrada da ULA leve 
5 ns, executar a ULA demore 10 ns e armazenar o 
resultado de volta no registrador de rascunho tome 
5 ns. Qual e o numero maximo de MIPS de que 
essa maquina e capaz na ausencia de paralelismo 8 . 
( pipelining )? 

2 . Qual e a finalidade da etapa 2 na lista da Segao 2.1.2? 

O que aconteceria se essa etapa fosse omitida? 

3. No computador 1, o tempo de execugao de todas as 
instrugoes e 10 ns. No computador 2, o tempo de 
execugao e de 5 ns. Voce pode afirmar com certeza 9 
que o computador 2 e mais rapido? Discuta sua 
resposta. 

4. Imagine que voce esta projetando um computador de 
um so chip para um sistema embutido. O chip conte- 
ra toda sua memoria e executara a mesma velocidade 
da CPU sem penalidade de acesso. Examine cada um 
dos princlpios discutidos na Segao 2.1.4 e diga por 
que sao tao importantes (admitindo que ainda se 
deseje alto desempenho). 

5. Para competir com a prensa impressora recentemen- 
te inventada, um mosteiro medieval decidiu produzir 
em massa livros escritos em papel, reunindo um 
vasto numero de escribas em uma grande sala. O 
superior do mosteiro entao ditaria a primeira palavra 
do livro a ser produzido e todos os escribas a escre- 
veriam. Em seguida, ele ditaria a segunda palavra e 
todos os escribas a escreveriam. Esse processo seria 
repetido ate que o livro inteiro fosse lido e copiado. 

Com qual dos sistemas de processador paralelo dis¬ 
cutidos na Segao 2.1.6 esse sistema e mais parecido? 

6 . A medida que descemos na hierarquia de memoria 
de cinco niveis discutida no texto, o tempo de aces¬ 
so aumenta. Faga uma estimativa razoavel da razao 
entre o tempo de acesso por disco optico e o tempo 
de acesso ao registrador da memoria. Suponha que o 
disco ja esteja on-line. 

7. Sociologos podem obter tres respostas posslveis para 
uma tipica pergunta de levantamento como “Voce 
acredita em Papai Noel?” - ou seja: sim, nao, nenhu- 
ma opiniao. Tendo isso em mente, a Sociomagnetic 
Computer Company decidiu construir um com¬ 
putador para processar os dados do levantamento. 


Esse computador tern uma memoria ternaria, is to 
e, cada byte (tryte?) consiste em 8 trits, sendo que 
um trit contem um 0, um 1 ou um 2. Quantos trits 
sao necessarios para conter um numero de 6 bits? 
Escreva uma expressao para o numero de trits neces- 
sario para conter n bits. 

Calcule a taxa de dados do olho humano usando 
as seguintes informagoes. O campo visual consiste 
em cerca de 10 6 elementos (pixels). Cada pixel pode 
ser reduzido a uma sobreposigao das tres cores pri- 
marias, cada uma com 64 intensidades. A resolugao 
temporal e de 100 ms. 

Calcule a taxa de dados do ouvido humano usando 
as seguintes informagoes. As pessoas podem ouvir 
frequences de ate 22 kHz. Para capturar toda a 
informagao em um sinal sonoro a 22 kHz, e preciso 
amostrar o som a duas vezes aquela frequencia, isto 
e, a 44 kHz. Uma amostra de 16 bits provavelmente 
basta para capturar a maioria das informagoes auditi- 
vas (isto e, o ouvido nao pode distinguir mais do que 
65.535 niveis de intensidade). 

10 . As informagoes geneticas de todos os seres viventes 
estao codificadas como moleculas de DNA. Uma 
molecula de DNA e uma sequencia linear dos quatro 
nucleotideos basicos: A, C, G e T. O genoma humano 
contem cerca de 3 x 10 9 nucleotideos na forma de 
mais ou menos 30 mil genes. Qual e a capacidade 
total de informagoes (em bits) do genoma humano? 
Qual e a capacidade maxima de informagoes (em 
bits) do gene medio? 

11 . Certo computador pode ser equipado com 1.073.741.824 
bytes de memoria. Por que um fabricante escolheria tal 
numero peculiar, em vez de um numero facil de lem- 
brar, como 1 milhao? 

12. Invente um codigo de Hamming de paridade par de 
7 bits para os digitos 0 a 9. 

13. Invente um codigo para os digitos 0 a 9 cuja distancia 
de Hamming seja 2. 

14. Em um codigo de Hamming, alguns bits sao “des- 
perdigados” no sentido de que sao usados para 
verificagao, e nao para informagao. Qual e a porcen- 
tagem de bits desperdigados para mensagens cujo 
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comprimento total (dados + bits de verificagao) e 
2 n - 1? Avalie essa expressao numericamente para 
valores de n de 3 a 10. 

15. Um caractere ASCII estendido e representado por uma 
quantidade de 8 bits. A codificagao de Hamming asso- 
ciada a cada caractere pode entao ser representada por 
uma sequencia de tres digitos hexa. Codifique o seguin- 
te texto ASCII estendido de cinco caracteres usando um 
codigo de Hamming com paridade par: Earth. Mostre 
sua resposta como uma sequencia de digitos hexa. 

16. A sequencia de digitos hexa a seguir codifica carac¬ 
teres ASCII estendidos em um codigo de Hamming 
com paridade par: 0D3 DD3 0F2 5C1 1C5 CE3. 
Decodifique essa sequencia e escreva os caracteres 
que sao codificados. 

17. O disco ilustrado na Figura 2.19 tern 1.024 setores/ 
trilha e uma taxa de rotagao de 7.200 RPM. Qual e a 
taxa de transference sustentada do disco sobre uma 
trilha? 

18. Um computador tern um barramento com tempo de 
ciclo de 5 ns, durante o qual ele pode ler ou escrever 
uma palavra de 32 bits da memoria. O computador 
tern um disco Ultra4-SCSI que usa o barramento e 
executa a 160 Mbytes/s. A CPU normalmente busca 
e executa uma instrugao de 32 bits a cada 1 ns. De 
quanto e a desaceleragao da CPU causada pelo disco? 

19. Imagine que voce esteja escrevendo a parte do geren- 
ciamento de disco de um sistema operacional. Voce 
representa o disco logicamente como uma sequencia 
de blocos desde 0 no interior ate algum maximo 
no exterior. A medida que sao criados arquivos, 
voce tern de alocar setores livres. Voce poderia fazer 
isso de fora para dentro ou de dentro para fora. A 
estrategia que escolhe tern importance em um disco 
moderno? Explique sua resposta. 

20 . Quanto tempo leva para ler um disco com 10 mil 
cilindros, cada um com quatro trilhas de 2.048 
setores? Primeiro, todos os setores da trilha 0 
devem ser lidos iniciando no setor contendo 0, em 
seguida, todos os setores da trilha 1 iniciando no 
setor 0 e assim por diante. O tempo de rotagao e 
10 ms, e uma busca leva 1 ms entre cilindros adja- 
centes e 20 ms para o pior caso. As passagens de 
uma trilha para outra de um cilindro podem ser 
feitas instantaneamente. 

21. O RAID nivel 3 e capaz de corrigir erros de um so bit 
usando apenas um drive de paridade. Entao, para que 
serve o RAID nivel 2? Afinal, ele so pode corrigir um 
erro e precisa de mais drives para faze-lo. 

22 . Qual e a exata capacidade de dados (em bytes) de um 
CD-ROM modo 2 que contenha os 80 minutos de 


midia que agora sao o padrao? Qual e a capacidade 
para dados de usuario em modo 1? 

23. Para gravar um CD-R, o laser deve pulsar entre 
ligado e desligado a alta velocidade. Ao executar 
em velocidade lOx em modo 1, qual e a duragao do 
pulso em nanossegundos? 

24. Para poder colocar 133 minutos de video em um 
DVD de um lado so e em uma unica camada, e preci- 
so uma razoavel compressao. Calcule o fator de com- 
pressao exigido. Suponha que haja 3,5 GB de espago 
disponivel para a faixa de video, que a resolugao de 
imagem e de 720 x 480 pixels com cor de 24 bits 
(RGB a 8 bits cada) e as imagens sao apresentadas a 
30 quadros/s. 

25. O Blu-ray transfere dados a 4,5 MB/s e tern uma 
capacidade de 25 GB. Quanto tempo leva para ler 
um disco inteiro? 

26. Um fabricante anuncia que seu terminal de mapas de 
bits de cor pode exibir 2 24 cores diferentes. Porem, 
o hardware so tern 1 byte para cada pixel. Como e 
possivel fazer isso? 

27. Voce faz parte de uma equipe cientifica internacio- 
nal ultrassecreta, que acabou de receber a tarefa de 
estudar um ser chamado Herb, um extraterrestre do 
Planeta 10 que chegou recentemente aqui na Terra. 
Herb lhe deu a seguinte informagao sobre como 
funcionam seus olhos: seu campo visual consiste em 
cerca de 10 8 pixels. Cada pixel e basicamente uma 
sobreposigao de cinco “cores” (ou seja, infraver- 
melho, vermelho, verde, azul e ultravioleta), cada 
um com 32 intensidades. A resolugao de tempo do 
campo visual de Herb e de 10 ms. Calcule a taxa 
de dados, em GB/s, dos olhos de Herb. 

28. Um terminal de mapa de bits tern um monitor de 
1.920 x 1.080. Ele e redesenhado 75 vezes por 
segundo. Qual e a duragao do pulso correspondente 
a um pixel? 

29. Usando certa fonte, uma impressora monocromati- 
ca a laser pode imprimir 50 linhas de 80 caracteres 
por pagina. O caractere medio ocupa um quadrado 
de 2 mm x 2 mm, dos quais cerca de 25% e toner. O 
resto e branco. A camada de toner tern 25 micra de 
espessura. O cartucho de toner da impressora mede 
25 x 8 x 2 cm. Quantas paginas podem ser impres- 
sas com um cartucho de toner? 

30. A Hi-Fi Modem Company acabou de projetar um 
novo modem de modulagao em frequence que usa 
64 frequences em vez de apenas 2. Cada segundo e 
dividido em n intervalos de tempo iguais, cada um 
deles contendo um dos 64 tons possiveis. Quantos 
bits por segundo esse modem pode transmitir usando 
transmissao sincrona? 
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31. Um usuario de Internet contratou urn servigo ADSL 
de 2 Mbps. O vizinho dele preferiu um servigo por 
cabo que tem uma largura de banda compartilhada 
de 12 MHz. O esquema de modulagao em uso e 
QAM-64. Ha n residences ligadas ao cabo, cada uma 
com um computador. Uma fragao / desses compu¬ 
tadores esta on-line a qualquer dado instante. Sob 
quais condigoes o usuario do cabo obtera melhor 
servigo do que o usuario ADSL? 

32. Uma camera digital tem uma resolugao de 3.000 x 
2.000 pixels, com 3 bytes/pixel para cor RGB. O fabri- 
cante da camera quer gravar uma imagem JPEG a um 
fator de compressao de 5x na memoria rapida em 2s. 
Qual e a taxa de dados necessaria? 

33. Uma camera digital de primeira linha tem um sen¬ 
sor com 24 milhoes de pixels, cada qual com 6 
bytes/pixel. Quantas fotos podem ser armazenadas 
em um cartao de memoria rapida de 8 GB se o fator 


de compressao for 5x1 Suponha que 1 GB signifique 
2 30 bytes. 

34. Estime quantos caracteres, incluindo espagos, con- 
tem um livro tipico sobre ciencia da computagao. 
Quantos bits sao necessarios para codificar um 
livro em ASCII com paridade? Quantos CD-ROMs 
sao necessarios para armazenar uma biblioteca de 
ciencia da computagao com 10 mil livros? Quantos 
DVDs de dupla face, dupla camada, sao necessarios 
para a mesma biblioteca? 

35. Escreva um procedimento hamming (ascii, encoded ) 
para converter os 7 bits de baixa ordem de ascii em 
uma palavra de codigo de 11 bits armazenada em 
encoded. 

36. Escreva uma fungao distance (code, n, k ) que recebe 
uma matriz code de n caracteres de k bits cada como 
entrada e retorna a distancia do conjunto de carac¬ 
teres como salda. 





Capitulo 


0 nivel logico digital 


N a parte inferior da hierarquia da Figura 1.2 encontramos o nivel logico digital, o real hardware do 
computador. Neste capitulo, examinaremos muitos aspectos da logica digital, como um fundamento 
para o estudo de nlveis mais altos em capltulos subsequentes. Esse assunto esta no limiar entre a 
ciencia da computagao e a engenharia eletrica, mas o material e independente, portanto, nao ha necessidade 
de experiencia previa de hardware nem de engenharia para entende-lo. 

Os elementos basicos que fazem parte de todos os computadores digitais sao surpreendentemente simples. 
Iniciaremos nosso estudo examinando esses elementos basicos e tambem a algebra especial de dois valores (alge¬ 
bra booleana) usada para analisa-los. Em seguida, examinaremos alguns circuitos fundamental que podem ser 
construldos usando simples combinagoes de portas, entre eles os circuitos que efetuam a aritmetica. O topico que 
vem depois desse e o modo como essas portas podem ser combinadas para armazenar informagoes, isto e, como 
as memorias sao organizadas. Logo apos, chegamos a questao das CPUs e, em especial, de como e a interface 
entre CPUs de um so chip, a memoria e os dispositivos perifericos. Mais adiante neste capitulo serao estudados 
diversos exemplos da industria de computadores. 


3.1 Portas e algebra booleana 

Circuitos digitais podem ser construldos com um pequeno numero de elementos primitivos combinando-os de 
inumeras maneiras. Nas segoes seguintes, descreveremos tais elementos, mostraremos como eles podem ser com- 
binados e introduziremos uma poderosa tecnica matematica que pode ser usada para anabsar seu comportamento. 
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3.1.1 Portas 

Um circuito digital e aquele em que estao presentes somente dois valores logicos. O normal e que um sinal 
entre 0 e 0,5 volt represente um valor (por exemplo, 0 binario) e um sinal entre 1 e 1,5 volt represente o outro 
valor (por exemplo, 1 binario). Nao sao permitidas tensoes fora dessas duas faixas. Minusculos dispositivos ele- 
tronicos, denominados portas (gates), podem calcular varias fungoes desses sinais de dois valores. Essas portas 
formam a base do hardware sobre a qual todos os computadores digitais sao construldos. 

Os detalhes do funcionamento interno das portas estao fora do escopo deste livro, pois pertencem ao nlvel de 
dispositivo, que esta abaixo do nlvel 0. Nao obstante, agora vamos divagar um pouco e examinar rapidamente a 
ideia basica, que nao e diflcil. No fundo, toda a logica digital moderna se apoia no fato de que um transistor pode 
funcionar como um cornutador binario muito rapido. Na Figura 3.1(a), mostramos um transistor bipolar (repre- 
sentado pelo clrculo) inserido em um circuito simples. Esse transistor tern tres conexoes com o mundo exterior: o 
coletor, a base e o emissor. Quando a voltagem de entrada, V in , esta abaixo de certo valor crltico, o transistor desliga 
e age como uma resistencia infinita. Isso faz com que a salda do circuito, V out , assuma um valor proximo a V cc , uma 
voltagem regulada externamente, em geral +1,5 volt para esse tipo de transistor. Quando V in excede o valor crltico, 
o transistor liga e age como um fio, fazendo V out ficar conectado com a terra (por convengao, 0 volt). 

O importante e notar que, quando Vi n e baixa, V out e alta, e vice-versa. Assim, esse circuito e um inversor, que 
converte um 0 logico em um 1 logico e um 1 logico em um 0 logico. O resistor (linha serrilhada) e necessario para 
limitar a quantidade de corrente drenada pelo transistor, de modo que ele nao queime. O tempo tlpico exigido 
para passar de um estado para outro e tipicamente de um nanossegundo ou menos. 

Na Figura 3.1(b), dois transistores estao ligados em serie. Se ambas, Vi e V 2 , forem altas, ambos os transisto- 
res conduzirao e V out caira. Se qualquer das entradas for baixa, o transistor correspondente se desligara e a salda 
sera alta. Em outras palavras, V out sera baixa se, e somente se, ambas, Vi e V 2 , forem altas. 

Na Figura 3.1(c), os dois transistores estao ligados em paralelo em vez de em serie. Nessa configuragao, se 
qualquer das entradas for alta, o transistor correspondente ligara e conectara a salda com a terra. Se ambas as 
entradas forem baixas, a salda permanecera alta. 

Esses tres circuitos, ou seus equivalentes, formam as tres portas mais simples e sao denominadas portas 
not, nand e nor, respectivamente. Portas not costumam ser denominadas inversoras; usaremos os dois termos 
indiferentemente. Se agora adotarmos a convengao de que “alta” (V cc volts) e um 1 logico e “baixa” (terra) e um 
0 logico, podemos expressar o valor de salda como uma fungao dos valores de entrada. Os slmbolos usados para 
representar essas portas sao mostrados nas figuras 3.2(a)-(c) junto com o comportamento funcional de cada 
circuito. Nessas figuras, A e B sao entradas e X e a salda. Cada linha especifica a salda para uma combinagao 
diferente das entradas. 


Figura 3.1 (a) Inversor de transistor, (b) Porta nand. (c) Porta nor. 
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Se o sinal de salda da Figura 3.1(b) for alimentado em um circuito inversor, obtemos outro circuito com o 
inverso exato da porta nand, a saber, um cuja salda e 1 se, e somente se, ambas as entradas forem 1. Esse circuito e 
denominado uma porta and; seu simbolo e descrigao funcional sao dados na Figura 3.2(d). De modo semelhante, 
a porta nor pode ser conectada a um inversor para produzir um circuito cuja salda e 1 se quaisquer das saidas, ou 
ambas, for um 1, mas 0 se ambas as entradas forem 0. O simbolo e a descrigao funcional desse circuito, denominado 
uma porta or, sao dados na Figura 3.2(e). Os pequenos circulos usados como parte dos slmbolos para o inversor, 
porta nand e porta nor, sao denominados bolhas de inversao. Tambem sao usadas em outros contextos para indicar 
um sinal invertido. 

As cinco portas da Figura 3.2 sao os principais elementos de construgao do nivel logico digital. A discussao 
precedente deve ter deixado claro que as portas nand e nor requerem dois transistores cada, ao passo que as 
portas and e or requerem tres cada. Por essa razao, muitos computadores sao baseados em portas nand e nor 
em vez das portas mais conhecidas, and e or. (Na pratica, todas as portas sao executadas de modo um pouco 
diferente, mas as nand e nor ainda sao mais simples do que as and e or.) A proposito, vale a pena observar que 
as portas podem perfeitamente ter mais de duas entradas. Em principio, uma porta nand, por exemplo, pode ter, 
arbitrariamente, muitas entradas, mas na pratica nao e comum encontrar mais de oito. 

Embora a questao do modo como sao construldas as portas pertenga ao nivel do dispositivo, gostarlamos de 
mencionar as principais famllias de tecnologia de fabricagao porque elas sao citadas com muita frequencia. As duas 
tecnologias principais sao bipolar e MOS (Metal Oxide Semiconductor - semicondutor de oxido metalico). Os 
dois principais tipos bipolares sao a TTL (Transistor-Transistor Logic - logica transistor-transistor), que ha mui¬ 
tos anos e o burro de carga da eletronica digital, e a ECL (Emitter-Coupled Logic - logica de emissor acoplado), 
que era usada quando se requeria uma operagao de velocidade muito alta. Para circuitos de computador, o que 
predomina agora e a tecnologia MOS. 

Portas MOS sao mais lentas do que as TTL e ECL, mas exigem bem menos energia eletrica e ocupam um 
espago muito menor, portanto, um grande numero delas pode ser compactado e empacotado. Ha muitas varieda- 
des de MOS, entre as quais PMOS, NMOS e CMOS. Embora os modos de construgao dos transistores MOS e dos 
transistores bipolares sejam diferentes, sua capacidade de funcionar como cornutadores eletronicos e a mesma. 
A maioria das CPUs e memorias modernas usa tecnologia CMOS, que funciona a +1,5 volt. E isso e tudo o que 
diremos sobre o nivel de dispositivo. O lei tor inter essado em continuar o estudo desse nivel deve consultar as 
leituras sugeridas na Sala Virtual. 

3.1.2 Algebra booleana 

Para descrever os circuitos que podem ser construidos combinando portas, e necessario um novo tipo de 
algebra, no qual variaveis e fungoes podem assumir somente os valores 0 e 1. Essa algebra e denominada alge¬ 
bra booleana, nome que se deve a seu descobridor, o matematico ingles George Boole (1815-1864). Em termos 


Figura 3.2 Simbolos e comportamento funcional das cinco portas basicas. 
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estritos, estamos nos referindo a um tipo especlfico de algebra booleana, uma algebra de cornu tagao, mas o termo 
“algebra booleana” e tao utilizado no lugar de “algebra de comu tagao” que nao faremos a distingao. 

Assim como ha fungoes na algebra “ordinaria” (isto e, a algebra do colegial), tambem ha fungoes na alge¬ 
bra booleana. Uma fungao booleana tern uma ou mais variaveis de entrada e produz um resultado que depende 
somente dos valores dessas variaveis. Uma fungao simples,/, pode ser definida ao se dizer que/(A) e 1 se A for 0 
e/(A) e 0 se A for 1. Essa fungao e a fungao not da Figura 3.2(a). 

Como uma fungao booleana de n variaveis so tern 2 n combinagoes posslveis de valores de entrada, ela 
pode ser completamente descrita por uma tabela com 2 n linhas, na qual cada linha informa o valor da fun¬ 
gao para uma combinagao diferente de valores de entrada. Ela e denominada tabela verdade. As tabelas da 
Figura 3.2 sao todas exemplos de tabelas verdade. Se concordarmos em sempre listar as linhas de uma tabela 
verdade em ordem numerica (base 2), isto e, para duas variaveis na ordem 00, 01, 10 e 11, a fungao pode ser 
completamente descrita pelo numero binario de 2 n bits obtido pela leitura vertical da coluna de resultado da 
tabela verdade. Assim, nand e 1110, nor e 1000, and e 0001 e or e 0111. E obvio que so existem 16 fungoes 
booleanas de duas variaveis, correspondentes as 16 posslveis sequencias de 4 bits resultantes. Por outro lado, 
a algebra ordinaria tern um numero infinito de fungoes de duas variaveis, nenhuma das quais pode ser des¬ 
crita por meio de uma tabela de saldas para todas as entradas posslveis, porque cada variavel pode assumir 
qualquer valor de um numero infinito de valores posslveis. 

A Figura 3.3(a) mostra a tabela verdade para uma fungao booleana de tres variaveis: M =/(A, B, C). Essa fun¬ 
gao e a de logica majoritaria, isto e, ela eOsea maioria de suas entradas for 0, e 1 se a maioria de suas entradas for 1. 
Embora qualquer fungao booleana possa ser completamente especificada dada sua tabela verdade, a medida que 
aumenta o numero de variaveis, essa notagao fica cada vez mais trabalhosa. Portanto, costuma-se usar outra notagao 
no lugar dela. 


Figura 3.3 


(a) Tabela verdade para a funcao majoritaria de tres variaveis. (b) Circuito para (a). 
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Para ver como ocorre essa outra notagao, observe que qualquer fungao booleana pode ser especificada ao se 
dizer quais combinagoes de variaveis de entrada dao um valor de salda igual a 1. Para a fungao da Figura 3.3(a), ha 
quatro combinagoes de variaveis de entrada que fazem com que M seja 1. Por convengao, marcaremos a variavel 
de entrada com uma barra para indicar que seu valor e invertido. A ausencia de uma barra significa que o valor 
nao e invertido. Alem disso, usaremos a multiplicagao implicita ou um ponto para representar a fungao booleana 
AND e + para representar a fungao booleana OR. Assim, por exemplo, ABC assume o valor 1 somente quando A 
= leB = 0eC=l. Alem disso, AB + BC e 1 somente quando (A = 1 e B = 0) ou (B = 1 e C = 0). As quatro linhas 
da Figura 3.3(a) que produzem bits 1 na salda sao: ABC, ABC, ABC e ABC. A fungao, M, e verdadeira (isto e, 1) 
se qualquer uma dessas quatro condigoes for verdadeira; dal, podemos escrever 

M = ABC + ABC + ABC + ABC 

como um modo compacto de dar a tabela verdade. Assim, uma fungao de n variaveis pode ser descrita como se 
desse uma “soma” de no maximo 2 n termos de “produtos” de n variaveis. Essa formulagao e de especial impor- 
tancia, como veremos em breve, pois leva diretamente a uma execugao da fungao que usa portas padronizadas. 

E importante ter em mente a distingao entre uma fungao booleana abstrata e sua execugao por um circuito 
eletronico. Uma fungao booleana consiste em variaveis, como A, B e C, e operadores booleanos, como AND, OR 
e NOT. Ela e descrita por uma tabela verdade ou por uma fungao booleana como 

F = ABC + ABC 

Uma fungao booleana pode ser executada por um circuito eletronico (muitas vezes de varios modos diferentes) 
usando sinais que represen tarn as variaveis de entrada e salda e portas como and, or e not. Em geral, empregaremos 
a notagao AND, OR e NOT quando nos referirmos aos operadores booleanos, e and, or e not quando nos referirmos 
a portas, embora essa notagao quase sempre seja amblgua em se tratando de indicar fungoes ou portas. 

3.1.3 Execucao de funcoes booleanas 

Como ja mencionamos, a formulagao de uma fungao booleana como uma soma de ate 2 n termos produtos 
leva a uma posslvel implementagao. Usando a Figura 3.3 como exemplo, podemos ver como essa implementagao 
e efetuada. Na Figura 3.3(b), as entradas, A, B e C, aparecem na extremidade esquerda, e a fungao de salda, M, 
na extremidade direita. Como sao necessarios complementos (inversos) das variaveis de entrada, eles sao gerados 
tomando as entradas e passando-as pelos inversores rotulados 1, 2 e 3. Para evitar atravancar a figura, desenhamos 
seis linhas verticais, tres das quais conectadas as variaveis de entrada e tres aos complementos dessas variaveis. 
Tais linhas oferecem uma fonte conveniente para as entradas das portas subsequentes. Por exemplo, as portas 5, 
6 e 7 usam A como uma entrada. Em um circuito real, essas portas provavelmente estariam ligadas direto a A sem 
usar nenhum fio “vertical” intermediario. 

O circuito contem quatro portas and, uma para cada termo da equagao para M (isto e, uma para cada linha 
da tabela verdade que tenha um bit 1 na coluna de resultado). Cada porta and calcula uma linha da tabela verda¬ 
de, como indicado. Por fim, todos os termos produtos alimentam a porta logica or para obter o resultado final. 

O circuito da Figura 3.3(b) usa uma convengao que utilizaremos repetidas vezes neste livro: quando duas 
linhas se cruzam, nao ha nenhuma ligagao implicita a menos que haja um ponto negro bem vislvel na intersecgao. 
Por exemplo, a salda da porta 3 cruza todas as seis linhas verticais, mas esta ligada apenas a C. E bom lembrar 
que alguns autores usam outras convengoes. 

Pelo exemplo da Figura 3.3 deve ficar claro como colocar em pratica um circuito para qualquer fungao 
booleana: 

1. Escreva a tabela verdade para a fungao. 

2. Providencie inversores para gerar o complemento de cada entrada. 

3. Desenhe uma porta and para cada termo que tenha um 1 na coluna de resultado. 

4. Ligue as portas and as entradas adequadas. 

5. Alimente a salda de todas as portas and a uma porta or. 
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Embora tenhamos mostrado como qualquer fungao booleana pode ser executada usando portas not, and e 
or, muitas vezes e conveniente realizar circuitos usando so um tipo de porta. Felizmente, converter circuitos gera- 
dos pelo algoritmo precedente a forma nand pura ou nor pura e uma operagao direta. Para fazer essa conversao, 
basta que tenhamos um modo de implementar not, and e or usando um unico tipo de porta. A linha superior da 
Figura 3.4 mostra como todas essas tres podem ser implementadas usando apenas portas nand; a fileira de baixo 
mostra como isso pode ser feito usando apenas portas nor. (Essas operagoes sao diretas, mas tambem ha outras 
maneiras.) 

Um modo de implementar uma fungao booleana usando somente portas nand ou somente portas nor e 
primeiro seguir o procedimento dado anteriormente para construl-la com not, and e or. Em seguida, substi- 
tuir as portas de multiplas entradas por circuitos equivalentes usando portas de duas entradas. Por exemplo, 
A + B + C + D pode ser computada como (A + B) + (C + D), empregando tres portas or de duas entradas. Por fim, 
as portas not, and e or sao substituldas pelos circuitos da Figura 3.4. 


Figura 3.4 


Construcao de portas (a) not, (b) and e (c) or usando somente portas nand ou somente portas nor. 



(a) 


A- 

B- 


>-d_> 


AB 




o -1 


3^ 



Embora esse procedimento nao resulte em circuitos otimos, no sentido do numero mlnimo de portas, ele 
mostra que sempre ha uma solugao viavel. Ambas as portas, nand e nor, sao denominadas completas porque qual¬ 
quer fungao booleana pode ser calculada usando quaisquer das duas. Nenhuma outra porta tern essa propriedade, 
o que e outra razao para elas serem preferidas como blocos de construgao de circuitos. 

3.1.4 Equivalencia de circuito 

Projetistas de circuitos muitas vezes tentam reduzir o numero de portas em seus produtos para reduzir a area 
da placa de circuito interno necessaria para executa-las, diminuir o consumo de potencia e aumentar a velocidade. 
Para reduzir a complexidade de um circuito, o projetista tern de encontrar outro circuito que calcule a mesma 
fungao que o original, mas efetue essa operagao com um numero menor de portas (ou talvez com portas mais 
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simples, por exemplo, com duas em vez de com quatro entradas). A algebra booleana pode ser uma ferramenta 
valiosa na busca de circuitos equivalentes. 

Como exemplo de como a algebra booleana pode ser usada, considere o circuito e a tabela verdade para AB 
+ AC mostrados na Figura 3.5(a). Embora ainda nao as tenhamos discutido, muitas das regras da algebra comum 
tambem sao validas para a booleana. Em particular, a expressao AB + AC pode ser fatorada para A(B + C) usando 
a lei distributiva. A Figura 3.5(b) mostra o circuito e a tabela verdade para A(B + C). Como duas fungoes sao 
equivalentes se, e somente se, elas tiverem a mesma salda para todas as entradas posslveis, e facil ver pelas tabe- 
las verdade da Figura 3.5 que A(B + C) e equivalente a AB + AC. Apesar dessa equivalencia, o circuito da Figura 
3.5(b) e claramente melhor do que o da Figura 3.5(a), pois contem menos portas. 


Figura 3.5 Duas funcoes equivalentes. (a) AB + AC. (b) A[B+Q. 
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(b) 


Em geral, um projetista de circuitos comega com uma fungao booleana e depois aplica a ela as leis da algebra 
booleana na tentativa de achar uma fungao mais simples, porem equivalente. Um circuito pode ser construldo 
com base na fungao final. 

Para usar essa abordagem, precisamos de algumas identidades da algebra booleana. A Figura 3.6 mostra 
algumas das mais importantes. E interessante notar que cada lei tern duas formas que sao duais uma da outra. 
Permutando AND e OR e tambem 0 e 1, quaisquer das formas pode ser produzida com base na outra. Todas as 
leis podem ser provadas com facilidade construindo suas tabelas verdade. Com excegao da lei de De Morgan, a lei 
da absorgao, e da forma AND da lei distributiva, os resultados sao razoavelmente intuitivos. A lei de De Morgan 
pode ser estendida para mais de duas variaveis, por exemplo, ABC = A + B + C. 




























































122 


Organizacao estruturada de computadores 


Figura 3.6 Algumas identidades da algebra booleana. 


Nome 

Forma AND 

Forma OR 

Lei da identidade 

1A = A 

0 + A = A 

Lei do elemento nulo 

o 

ii 

< 

o 

1 + A = 1 

Lei idempotente 

< 

II 

< 

< 

A + A = A 

Lei do inverso 

> 

>1 

II 

o 

A + A = 1 

Lei comutativa 

< 

OQ 

II 

OQ 

< 

A + B = B + A 

Lei associativa 

(AB)C = A(BC) 

(A + B) + C = A + (B + C) 

Lei distributive 

A + BC = (A + B)(A + C) 

A(B + C) = AB + AC 

Lei da absorgao 

A(A + B) = A 

A + AB = A 

Lei de De Morgan 

AB = A + B 

A + B = AB 


A lei de De Morgan sugere uma notagao alternativa. Na Figura 3.7(a), a forma AND e mostrada com negagao 
indicada por bolhas de inversao tanto para entrada quanto para salda. Assim, uma porta or com entradas inver- 
tidas e equivalente a uma porta nand. Pela Figura 3.7(b), a forma dual da lei de De Morgan, deve ficar claro que 
uma porta nor pode ser desenhada como uma porta and com entradas invertidas. Negando ambas as formas da 
lei de De Morgan, chegamos as figuras 3.7(c) e (d), que mostram representagoes equivalentes das portas and e or. 
Existem slmbolos analogos para as formas de multiplas variaveis da lei de De Morgan (por exemplo, uma porta 
nand com n entradas se torna uma porta or com entradas invertidas). 


Figura 3.7 Sfmbolos alternatives para algumas portas: (a) nand. (b) nor. (c) and. (d) or. 


AB = A + B 




(a) 


(b) 


AB = A + B 

D- 

(c) 



Usando as identidades da Figura 3.7 e as analogas para portas de multiplas entradas e facil converter a repre¬ 
sen tagao de soma de produtos de uma tabela verdade para a forma nand pura ou nor pura. Como exemplo, con- 
sidere a fungao EXCLUSIVE OR da Figura 3.8(a). O circuito padrao da soma de produtos e mostrado na Figura 
3.8(b). Para converter para a forma nand, as linhas que conectam a salda das portas and a entrada da porta or 
devem ser redesenhadas com duas bolhas de inversao, conforme mostra a Figura 3.8(c). Por fim, usando a Figura 
3.7(a), chegamos a Figura 3.8(d). As variaveis A e B podem ser geradas de A e B usando portas nand ou nor com 
suas entradas interligadas. Note que as bolhas de inversao podem ser deslocadas a vontade ao longo da linha, por 
exemplo, desde as saldas das portas de entrada na Figura 3.8(d) ate as entradas da porta de salda. 
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* Figura 3.8 (a) Tabela verdade para a funcao XOR. (b)-(d) Tres circuitos para calcular essa tabela. 
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Como observagao final em relagao a equivalencia de circuitos, demonstraremos agora o surpreendente resul- 
tado, isto e, a mesma porta fisica pode calcular fungoes diferentes dependendo das convengoes usadas. Na Figura 
3.9(a), mostramos a salda de certa porta, F, para diferentes combinagoes de entrada. Tanto entradas quanto saldas 
sao representadas por volts. Se adotarmos a convengao de que 0 volt e 0 logico e 1,5 volt e 1 logico, denomina- 
da logica positiva, obtemos a tabela verdade da Figura 3.9(b), a fungao AND. Contudo, se adotarmos a logica 
negativa, na qual 0 volt e 1 logico e 1,5 volt e 0 logico, obtemos a tabela verdade da Figura 3.9(c), a fungao or. 


Figura 3.9 (a) Caracteristicas eletricas de um dispositivo. (b) Logica positiva. (c) Logica negativa. 
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(a) (b) (c) 


Assim, a convengao escolhida para mapear voltagens para valores logicos e crltica. A menos que especifique- 
mos outra coisa, daqui em diante usaremos logica positiva, portanto, os termos 1 logico, verdade e tensao alta sao 
sinonimos, assim como 0 logico, falso e tensao baixa. 

3.2 Circuitos logicos digitais basicos 

Nas segoes anteriores vimos como executar tabelas verdade e outros circuitos simples usando portas indivi¬ 
duals. Na pratica, poucos circuitos sao construldos porta por porta, embora tenha havido uma epoca em que isso 
era comum. Hoje, os blocos de construgao mais comuns sao modulos que contem varias portas. Nas proximas 
segoes, examinaremos esses blocos de construgao mais de perto e veremos como eles podem ser construldos com 
base em portas individuals. 
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3.2.1 Circuitos integrados 

Portas nao sao fabricadas nem vendidas individualmente, mas em unidades denominadas circuitos inte¬ 
grados, muitas vezes denominados ICs ou chips. Um IC e um pedago quadrado de sillcio de tamanho variado, 
dependendo de quantas portas sao necessarias para executar os componentes do chip. Substratos pequenos medi- 
rao cerca de 2 x 2 mm, enquanto os maiores podem ter ate 18 x 18 mm. ICs costumam ser montados em pacotes 
retangulares de plastico ou ceramica, que podem ser muito maiores que os substratos que eles abrigam, se forem 
necessarios muitos pinos para conectar o chip ao mundo exterior. Cada pino se conecta com a entrada ou salda 
de alguma porta no chip ou a fonte de energia, ou ao terra. 

A Figura 3.10 mostra uma serie de pacotes de IC comuns, usados para os chips de hoje. Chips menores, 
como os usados para microcontroladores domesticos ou chips de RAM, usarao pacotes duplos em linha 
(DIPs - Dual Inline Packages). Um DIP e um pacote com duas fileiras de pinos que se encaixam em um 
soquete correspondente na placa-mae. Os pacotes mais comuns tern 14, 16, 18, 20, 22, 24, 28, 40, 64 ou 68 
pinos. Para chips grandes costumam ser usados pacotes quadrados com pinos nos quatro lados ou na parte 
de baixo. Dois pacotes comuns para chips maiores sao Pin Grid Arrays, ou PGAs, e Land Grid Arrays, ou 
LGAs. PGAs possuem pinos na parte inferior do pacote, que se encaixam em um soquete correspondente 
na placa-mae. Soquetes PGA normalmente utilizam um mecanismo com forga de insergao nula, onde uma 
alavanca aplica pressao lateral sobre todos os pinos do PGA, mantendo-o firmemente no soquete PGA. LGAs, 
por outro lado, possuem pequenas plataformas planas na parte inferior do chip, e um soquete LGA tera uma 
capa que se encaixa sobre o LGA e aplica uma forga para baixo no chip, garantindo que todas as plataformas 
do LGA fagam contato com as plataformas do soquete LGA. 



Como muitos pacotes de IC tern forma simetrica, descobrir a orientagao correta e um problema constante 
com a instalagao de IC. DIPs normalmente tern um entalhe em uma ponta, que combina com uma marca corres- 
ponde no soquete DIP. PGAs, em geral, possuem um pino faltando, de modo que, se voce tentar inserir o PGA 
no soquete incorretamente, o PGA nao se encaixara. Como os LGAs nao possuem pinos, a instalagao correta e 
imposta colocando-se um entalhe em um ou dois lados do LGA, que corresponde a um entalhe no soquete LGA. 
O LGA nao entrara no soquete a menos que os dois entalhes combinem. 

Para todos os efeitos, todas as portas sao ideais no sentido de que a salda aparece logo que a entrada e apli- 
cada. Na realidade, os chips tern um atraso de porta finito que inclui o tempo de propagagao de sinal pelo chip e 
o tempo de comutagao. Atrasos tlpicos sao de centesimos de picossegundos a alguns nanossegundos. 

A tecnologia moderna vigente permite colocar mais de 1 bilhao de transistores em um chip. Como qualquer 
circuito pode ser construldo com base em portas nand, voce bem poderia imaginar que um fabricante poderia 
produzir um chip muito geral que contivesse 500 milhoes de portas nand. Infelizmente, um chip como esse neces- 
sitaria de 1.500.000.002 pinos. Como o espago-padrao entre pinos e 1 millmetro, um chip LGA teria 38 metros 
de comprimento para acomodar todos esses pinos, o que talvez tivesse um efeito negativo sobre as vendas. E 
claro que a unica maneira de tirar proveito da tecnologia e projetar circuitos com uma alta relagao porta/pino. 
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Nas segoes seguintes vamos examinar circuitos simples que combinam uma quantidade de portas internamente 
para fornecer uma fungao util que requer apenas um numero limitado de conexoes externas (pinos). 

3.2.2 Circuitos combinatorios 

Muitas aplicagoes de logica digital requerem um circuito com multiplas entradas e multiplas saldas, no qual 
as saldas sao determinadas exclusivamente pelas entradas em questao. Esses circuitos sao denominados circuitos 
combinatorios. Nem todos os circuitos tern essa propriedade. Por exemplo, um circuito que contenha elementos de 
memoria pode perfeitamente gerar saldas que dependem de valores armazenados, bem como de variaveis de entrada. 
Um circuito que esteja executando uma tabela verdade como a da Figura 3.3(a) e um exemplo tlpico de um circuito 
combinatorio. Nesta segao, examinaremos alguns circuitos combinatorios de uso frequente. 

• Multiplexadores 

No nivel logico, um multiplexador e um circuito com 2 n entradas de dados, uma salda de dados e n entradas 
de controle que selecionam uma das entradas de dados. Essa entrada selecionada e dirigida (isto e, roteada) ate a 
salda. A Figura 3.11 e um diagrama esquematico de um multiplexador de oito entradas. As tres linhas de controle, 
A, B e C, codificam um numero de 3 bits que especifica qual das oito linhas de entrada e direcionada ate a porta 
or e dali ate a salda. Nao importa qual valor esteja nas linhas de controle, sete das portas and sempre produzirao 
salda 0; a outra pode produzir ou um 0 ou um 1, dependendo do valor da linha de entrada selecionada. Cada 
porta and e habilitada por uma combinagao diferente das entradas de controle. O circuito do multiplexador e 
mostrado na Figura 3.11. 


Figura 3.11 Circuito multiplexador de oito entradas. 
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Usando o multiplexador, podemos executar a fungao majoritaria da Figura 3.3(a), como mostrado na Figura 
3.12(b). Para cada combinagao de A, B e C, uma das linhas de dados e selecionada. Cada entrada e ligada ou a V cc 
(1 logico) ou ao terra (0 logico). O algoritmo para ligar as entradas e simples: a entrada e a que tem o mesmo 
valor da linha i da tabela verdade. Na Figura 3.3(a), as linhas 0, 1, 2 e 4 sao 0, portanto, as entradas correspon- 
dentes estao aterradas; as linhas restantes sao 1, portanto, estao ligadas a 1 logico. Dessa maneira, qualquer tabela 
verdade de tres variaveis pode ser executada usando o chip da Figura 3.12(a). 


Figura 3.12 (a) Multiplexador com oito entradas. (b) 0 mesmo multiplexador ligado para calcular a funcao majoritaria. 
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Acabamos de ver como um chip multiplexador pode ser usado para selecionar uma das diversas entradas e 
como ele pode implementar uma tabela verdade. Outra de suas muitas aplicagoes e como um conversor de dados 
paralelo para serial. Colocando 8 bits de dados nas linhas de entrada e entao escalonando as linhas em sequencia 
de 000 a 111 (binario), os 8 bits sao colocados em serie na linha de salda. Uma utilizagao tlpica da conversao 
paralela para serial e um teclado, onde cada acionamento de uma tecla define implicitamente um numero de 7 ou 
8 bits que deve ser enviado por um enlace serial, como USB. 

O inverso de um multiplexador e um demultiplexador, que dirige sua unica entrada ate uma das 2 n saldas, 
dependendo dos valores das n linhas de controle. Se o valor binario das linhas de controle for k, e selecionada a salda k. 

• Decodificadores 

Como um segundo exemplo, agora vamos examinar um circuito que toma um numero de n bits como entra¬ 
da e o usa para selecionar (isto e, definir em 1) exatamente uma das 2 n linhas de salda. Tal circuito, ilustrado para 
n = 3 na Figura 3.13, e denominado decodificador. 

Para ver como um decodificador pode ser util, imagine uma pequena memoria que consiste em oito chips, 
cada um contendo 256 MB. O chip 0 tem enderegos de 0 a 256 MB, o chip 1 tem enderegos de 256 MB a 512 
MB e assim por diante. Quando um enderego e apresentado a memoria, os 3 bits de ordem aha sao usados 
para selecionar um dos oito chips. Usando o circuito da Figura 3.13, esses 3 bits sao as tres entradas, A, B e C. 
Dependendo das entradas, exatamente uma das oito linhas de salda, D 0 , ..., D 7 , e 1; o resto e 0. Cada linha de 
salda habilita um dos oito chips de memoria. Como so uma linha de salda e colocada em 1, apenas um chip 
e habilitado. 
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A operagao do circuito da Figura 3.13 e direta. Cada porta and tem tres entradas, das quais a primeira e A ou 
A, a segunda e B ou B e a terceira e C ou C. Cada porta e habilitada por uma combinagao diferente de entradas: 
D 0 por AB C, D\ por A B C, e assim por diante. 


Figura 3.13 


Circuito decodificador 3 para 8. 



• Comparadores 

Outro circuito util e o comparador, que compara duas palavras de entrada. O comparador simples da 
Figura 3.14 toma duas entradas, A e B, cada uma de 4 bits de comprimento, e produz um 1 se elas forem 
iguais e um 0 se elas nao o forem. O circuito e baseado na porta XOR (EXCLUSIVE OR), que produz um 0 
se suas entradas forem iguais e um 1 se elas forem diferentes. Se as duas palavras de entrada forem iguais, 
todas as quatro portas xor devem produzir 0. Entao, pode-se efetuar uma operagao OR nesses quatro sinais; 
se o resultado for 0, as palavras de entrada sao iguais; caso contrario, nao. Em nosso exemplo, usamos uma 
porta nor como o estagio final para reverter o sentido do teste: 1 significa igual, 0 significa diferente. 


3.2.3 Circuitos aritmeticos 

Chegou a hora de passar dos circuitos de uso geral discutidos anteriormente para circuitos combinatorios 
usados para operagoes aritmeticas. Comegaremos com um simples deslocador de 8 bits e em seguida veremos 
como sao construldos os somadores e, por fim, estudaremos as unidades de logica e aritmetica, que desempenham 
um papel fundamental em qualquer computador. 
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Figura 3.14 Comparador simples de 4 bits. 


porta EXCLUSIVE OR 


A 0 

Bo 



• Deslocadores 

Nosso primeiro circuito aritmetico e um deslocador de oito entradas e oito saldas (veja a Figura 3.15). Oito 
bits de entrada sao apresentados nas linhas D 0 , D 7 . A salda, que e apenas a entrada deslocada de 1 bit, esta 

nas linhas So, S 7 . A linha de controle, C, determina a diregao do deslocamento, 0 para a esquerda e 1 para a 
direita. Quando o deslocamento for para a esquerda, um 0 e inserido no bit 7. De modo semelhante, quando o 
deslocamento for para a direita, um 1 e inserido no bit 0. 


Figura 3.15 Deslocador esquerda/direita de 1 bit. 
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Para ver como o circuito funciona, observe os pares de portas and para todos os bits, exceto as portas na 
extremidade. Quando C = 1, o membro da direita de cada par e ligado, passando o bit de entrada correspondente 
para a salda. Como a porta and da direita esta ligada a entrada da porta or a sua direita, e executado um deslo- 
camento para a direita. Quando C = 0, o membro da esquerda do par da porta and e ligado, o que provoca um 
deslocamento para a esquerda. 

• Somadores 

Um computador que nao possa somar numeros inteiros e quase inimaginavel. Por consequencia, um circuito 
de hardware para efetuar adigao e uma parte essencial de toda CPU. A tabela verdade para adigao de inteiros de 
1 bit e mostrada na Figura 3.16(a). Ha duas saldas presentes: a soma das entradas, A e B, e o transporte (vai-um) 
para a posigao seguinte (a esquerda). Um circuito para calcular o bit de soma e o de transporte e ilustrado na 
Figura 3.16(b). Esse circuito simples e conhecido como um meio-somador. 


Figura 3.16 (a) Tabela verdade para adicao de 1 bit. (b) Circuito para um meio-somador. 
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Embora um meio-somador seja adequado para somar os bits de ordem baixa de duas palavras de entrada de 
multiplos bits, ele nao servira para uma posigao de bit no meio da palavra porque nao trata o transporte de bit 
da posigao a direita (vem-um). Em seu lugar, precisamos do somador completo da Figura 3.17. Pela inspegao 
do circuito, deve ficar claro que um somador completo e composto de dois meios-somadores. A linha de salda 
Soma e 1 se um numero Impar A, B e o vem-um (carry in) forem 1. O vai-um (carry out) elseAeB forem ambos 
1 (entrada esquerda para a porta or) ou se exatamente um deles for 1 e o bit de vem-um (carry in) tambem e 1. 
Juntos, os dois meios-somadores geram a soma e tambem os bits de transporte. 

Para construir um somador para palavras de 16 bits, por exemplo, basta repetir o circuito da Figura 3.17(b) 
16 vezes. O vai-um de um bit e usado como vem-um para seu vizinho da esquerda. O vem-um do bit da extrema 
direita esta ligado a 0. Esse tipo de somador e denominado somador de transporte encadeado porque, na pior das 
hipoteses, somando 1 a 111...Ill (binario), a adigao nao pode ser conclulda ate que o vai-um tenha percorrido 
todo o caminho do bit da extrema direita ate o da extrema esquerda. Tambem existem somadores que nao tern 
esse atraso e, portanto, sao mais rapidos - em geral, sao os preferidos. 

Como exemplo simples de um somador mais rapido, considere subdividir um somador de 32 bits em uma 
metade inferior e uma metade superior de 16 bits cada. Quando a adigao comega, o somador superior ainda nao 
pode trabalhar porque nao sabe qual e o vem-um por 16 tempos de adigao. 
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Figura 3.17 (a) Tabela verdade para somador completo. (b) Circuito para um somador completo. 
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Contudo, considere essa modificagao no circuito. Em vez de uma unica metade superior, vamos dar ao 
somador duas metades superiores em paralelo duplicando o hardware da metade superior. Desse modo, agora 
o circuito consiste em tres somadores de 16 bits: uma metade inferior e duas metades superiores, U0 e U1 que 
funcionam em paralelo. Um 0 e alimentado em U0 como vai-um; um 1 e alimentado em Ul como vai-um. Agora, 
ambos podem iniciar ao mesmo tempo do que a metade inferior, mas somente um estara correto. Apos 16 tempos 
de adigao de bits, ja se sabera qual e o vem-um que deve ir para a metade superior, portanto, agora ja se pode 
selecionar a metade superior correta com base em duas respostas disponlveis. Esse estratagema reduz o tempo de 
adigao por um fator de dois. Um somador como esse e denominado somador de selegao de transporte. Entao, o 
estratagema pode ser repetido para construir cada somador de 16 bits com base em somadores de 8 bits repetidos 
e assim por diante. 

• Unidades logica e aritmetica 

Grande parte dos computadores contem um unico circuito para efetuar and, or e soma de duas palavras 
de maquina. No caso tlpico, tal circuito para palavras de n bits e composto de n circuitos identicos para as 
posigoes individual de bits. A Figura 3.18 e um exemplo simples de um circuito desses, denominado uni- 
dade logica e aritmetica (ULA) (Arithmetic Logic Unit - ALU). Ela pode calcular qualquer uma das quatro 
fungoes - a saber, A and B,AorB,B ou A + B, dependendo de as linhas de entrada de selegao de fungao F 0 
e Ei conterem 00, 01, 10 ou 11 (binario). Note que, aqui, A + B significa a soma aritmetica de A e B, e nao a 
operagao booleana or. 

O canto inferior esquerdo de nossa ULA contem um decodificador de 2 bits para gerar sinais de enable 
(habilitagao) para as quatro operagoes, com base nos sinais de controle F 0 e F\. Dependendo dos valores de F 0 e 
Fi, exatamente uma das quatro linhas de habilitagao e selecionada. Ativar essa linha permite que a salda para a 
fungao selecionada passe por ela ate a porta OR final, para salda. 

O canto superior esquerdo contem a logica para calcular A and B, A or, B e B, mas no maximo um desses 
resultados e passado para a porta or final, dependendo das linhas de habilitagao que saem do decodificador. Como 
exatamente uma das saldas do decodificador sera 1, exatamente uma das quatro portas and que comandam a porta 
or sera habilitada; as outras tres resultarao em 0, independente de A e B. 
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* Figura 3.18 ULA de 1 bit. 


Unidade Idgica Vem-um 



Alem de poder usar A e B como entradas para operagoes logicas ou aritmeticas, tambem e posslvel for- 
gar quaisquer delas para 0 negando ena ou enb, respectivamente. Tambem e posslvel obter A ativando inva. 
Veremos utilizagoes para inva, ena e enb no Capitulo 4. Em condigoes normals, ena e enb sao ambas 1 para 
habilitar ambas as entradas e inva e 0. Nesse caso, A e B sao apenas alimentados na unidade logica, sem 
modificagao. 

O canto direito inferior da ULA contem um somador completo para calcular a soma de A e B, incluindo 
manipulagao de transportes (vai-um e vem-um), porque e provavel que, em seu devido tempo, varios desses 
circuitos serao ligados juntos para efetuar operagoes de palavra inteira. Na verdade, existem circuitos como o da 
Figura 3.18 que sao conhecidos como segmentos de bits (bit slices ). Eles permitem que o projetista do computa- 
dor monte uma ULA da largura que quiser. A Figura 3.19 mostra uma ULA de 8 bits montada com 8 segmentos 
(slices ) de ULA de 1 bit. O sinal inc so e util para operagoes de adigao. Quando presente, aumenta o resultado 
(isto e, soma 1 a ele), possibilitando o calculo de somas como A+leA + B+1. 

Anos atras, um segmento de bit era na verdade um chip que voce podia comprar. Hoje, e mais como uma 
biblioteca que um projetista de chip pode replicar quantas vezes quiser em um programa projeto-auxiliado-por- 
-computador produzindo um arquivo de salda que direciona as maquinas de produgao de chips. Mas a ideia, na 
essencia, e a mesma. 
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Figura 3.19 


Oito segmentos ( slices ) de ULA de 1 bit conectados para formar uma ULA de 8 bits. Os sinais de habilitacao e inversao nao 
sao mostrados por simplicidade. 
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3 . 2.4 Clocks 

Em muitos circuitos digitais, a ordem em que os eventos ocorrem e crltica. As vezes um evento deve preceder 
outro, as vezes dois eventos devem ocorrer simultaneamente. Para permitir que os projetistas consigam as rela- 
goes de temporizagao requeridas, muitos circuitos digitais usam clocks para prover sincronizagao. Nesse contexto, 
um clock e um circuito que emite uma serie de pulsos com uma largura de pulso precisa e intervalos precisos 
entre pulsos consecutivos. O intervalo de tempo entre as arestas correspondentes de dois pulsos consecutivos e 
denominado tempo de ciclo de clock. Em geral, as frequences de pulso estao entre 100 MHz e 4 GHz, corres- 
pondendo a ciclos de clock de 10 nanossegundos a 250 picossegundos. Para conseguir alta precisao, a frequencia 
de clock normalmente e controlada por um oscilador de cristal. 

Muitos eventos podem ocorrer dentro de um computador durante um unico ciclo de clock. Se eles devem 
ocorrer em uma ordem especlfica, o ciclo de clock deve ser dividido em subciclos. Uma maneira comum de prover 
resolugao superior a do clock basico e aproveitar a linha de clock primaria e inserir um circuito com um atraso 
conhecido, gerando assim um sinal de clock secundario deslocado em certa fase em relagao ao primeiro, confor- 
me mostra a Figura 3.20(a). O diagrama de temporizagao da Figura 3.20(b) da quatro references de tempo para 
eventos discretos: 

1. Fase ascendente de Cl. 

2. Fase descendente de Cl. 

3. Fase ascendente de C2. 

4. Fase descendente de C2. 


Vinculando diferentes eventos as varias fases, pode-se conseguir a sequencia requerida. Se forem necessarias 
mais do que quatro references de tempo dentro de um ciclo de clock, podem-se puxar mais linhas da linha pri¬ 
maria, com diferentes atrasos, se for preciso. 

Em alguns circuitos, estamos interessados em intervalos de tempo em vez de instantes discretos de tempo. 
Por exemplo, pode-se permitir que algum evento acontega toda vez que Cl estiver alto, em vez de exatamente 
na fase ascendente. Outro evento so podera acontecer quando C2 estiver alto. Se forem necessarios mais de 
dois intervalos diferentes, podem ser instaladas mais linhas de clock ou pode-se fazer com que os estados 
altos dos dois clocks se sobreponham parcialmente no tempo. No ultimo caso, podem-se distinguir quatro 
intervalos distintos: Cl and C2, Cl and C2, Cl and C2 e Cl and C2. 

A proposito, clocks sao simetricos, com o tempo gasto no estado alto igual ao tempo gasto no estado 
baixo, como mostra a Figura 3.20(b). Para gerar um trem de pulsos assimetrico, o clock basico e deslocado 
usando um circuito de atraso e efetuando uma operagao AND com o sinal original, como mostra a Figura 
3.20(c) como C. 
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Figura 3.20 


(a) Um clock, (b) Diagrama de temporizacao para o clock, (c) Geracao de um clock assimetrico. 



(a) 


(b) 



(c) 


3.3 Memoria 

Um componente essential de todo computador e sua memoria. Sem ela nao poderiam existir os computa- 
dores que conhecemos. A memoria e usada para armazenar instrugoes a serem executadas e dados. Nas segoes 
seguintes examinaremos os componentes basicos de um sistema de memoria comegando no nivel da porta para 
ver como eles funcionam e como sao combinados para produzir memorias de grande porte. 

3.3.1 Memorias de 1 bit 

Para criar uma memoria de 1 bit (“latch”), precisamos de um circuito que “se lembre”, de algum modo, de 
valores de entrada anteriores. Tal circuito pode ser construldo com base em duas portas nor, como ilustrado na 
Figura 3.21(a). Circuitos analogos podem ser construldos com portas nand, porem, nao vamos mais menciona-los 
porque sao conceitualmente identicos as versoes nor. 

O circuito da Figura 3.21(a) e denominado latch SR. Ele tern duas entradas, S, para ativar ( setting ) o latch, 
e R, para restaura-lo ( resetting ), isto e, libera-lo. O circuito tambem tern duas saldas, Q e Q, que sao complemen- 
tares, como veremos em breve. Ao contrario de um circuito combinacional, as saldas do latch nao sao exclusiva- 
mente determinadas pelas entradas atuais. 


Figura 3.21 (a) Latch nor no estado 0. (b) Latch nor no estado 1. (c) Tabela verdade | 

Q 



Q 



A 

B 

NOR 

0 

0 

1 

0 

1 

0 

1 

0 

0 

1 

1 

0 


(C) 













































134 


Organizacao estruturada de computadores 


Para ver como isso ocorre, vamos supor que ambos, S e R, sejam 0, o que e verdade na maior parte do tempo. 
Apenas para polemizar, vamos supor que Q = 0. Como Q e realimentado para a porta nor superior, ambas as suas 
entradas sao 0, portanto, sua salda, Q, e 1. O 1 e realimentado para a porta inferior que, entao, tern entradas 1 e 
0, resultando em Q = 0. Esse estado e no minimo coerente e esta retratado na Figura 3.21(a). 

Agora, vamos imaginar que Q nao seja 0, mas 1, com Re S ainda 0. A porta superior tern entradas de 0 e 1, 
e uma salda, Q, de 0, que e realimentada para a porta inferior. Esse estado, mostrado na Figura 3.21(b), tambem 
e coerente. Um estado com as duas saldas iguais a 0 e incoerente, porque forga ambas as portas a ter dois 0 como 
entrada, o que, se fosse verdade, produziria 1, nao 0, como salda. De modo semelhante, e imposslvel ter ambas 
as saldas iguais a 1, porque isso forgaria as entradas a 0 e 1, o que resultaria 0, nao 1. Nossa conclusao e simples: 
para R = S = 0, o latch tern dois estados estaveis, que denominaremos 0 e 1, dependendo de Q. 

Agora, vamos examinar o efeito das entradas sobre o estado do latch. Suponha que S se torna 1 enquanto Q = 0. 
Entao, as entradas para a porta superior sao 1 e 0, forgando a salda Q a 0. Essa mudanga faz ambas as entradas 
para a porta inferior serem 0, forgando a salda para 1. Portanto, ativar S (is to e, fazer com que seja 1) mu da o 
estado de 0 para 1. Definir R em 1 quando o latch esta no estado 0 nao tern efeito algum porque a salda da porta 
NOR inferior e 0 para entradas de 10 e entradas de 11. 

Usando racioclnio semelhante, e facil ver que definir S em 1 quando em estado Q = 1 nao tern efeito algum, 
mas definir R leva o latch ao estado Q = 0. Resumindo, quando S e definido em 1 momentaneamente, o latch acaba 
no estado Q = 1, pouco importando seu estado anterior. Da mesma maneira, definir R em 1 momentaneamente 
forga o latch ao estado Q = 0. O circuito “se lembra” se foi S ou R definido por ultimo. Usando essa propriedade 
podemos construir memorias de computadores. 

• Latches SR com clock 

Muitas vezes e conveniente impedir que o latch mude de estado, a nao ser em certos momentos especificados. 
Para atingir esse objetivo, fazemos uma ligeira modificagao no circuito basico, conforme mostra a Figura 3.22, 
para obter um latch SR com clock. 


Figura 3.22 Latch SR com clock. 



Q 
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Esse circuito tern uma entrada adicional, o clock, que em geral e 0. Com o clock em 0, ambas as portas and 
geram salda 0, independentemente de ser S e R, e o latch nao mu da de estado. Quando o clock el, o efeito das 
portas and desaparece e o latch se torna senslvel a S e R. Apesar de seu nome, o sinal do clock nao precisa ser 
gerado por um clock. Os termos enable e strobe tambem sao muito usados para indicar que a entrada do clock e 
1; isto e, o circuito e senslvel ao estado de S e R. 

Ate aqui evitamos falar no que acontece quando ambos, S e R, sao 1, por uma boa razao: o circuito se torna 
nao determinlstico quando ambos, R e S, finalmente retornam a 0. O unico estado coerente para S = R= leQ = 
Q = 0; porem, assim que ambas as entradas voltam para 0, o latch deve saltar para um de seus dois estados esta¬ 
veis. Se quaisquer das entradas cair para 0 antes da outra, a que permanecer em 1 por mais tempo vence, porque, 
quando apenas uma entrada for 1, ela forga o estado. Se ambas as entradas voltarem a 0 ao mesmo tempo (o que 
e muito improvavel), o latch salta aleatoriamente para um de seus estados estaveis. 
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• Latches D com clock 

Uma boa maneira de resolver a instabilidade do latch SR (causada quando S = R = 1) e evitar que ela ocorra. 
A Figura 3.23 apresenta um circuito de latch com somente uma entrada, D. Como a entrada para a porta and 
inferior e sempre o complemento da entrada para a superior, nunca ocorre o problema de ambas as entradas serem 1. 
Quando D = 1 e o clock for 1, o latch e levado ao estado Q = 1. Quando D = 0 e o clock for 1, ele e levado ao 
estado Q = 0. Em outras palavras, quando o clock for 1, o valor corrente de D e lido e armazenado no latch. Esse 
circuito, denominado latch D com clock , e uma verdadeira memoria de 1 bit. O valor armazenado sempre estara 
disponlvel em Q. Para carregar o valor atual de D na memoria, um pulso positivo e colocado na linha do clock. 




Figura 3.23 


Latch D com clock. 



Esse circuito requer 11 transistores. Circuitos mais sofisticados (porem, menos obvios) podem armazenar 
1 bit com ate seis transistores. Esses projetos costumam ser usados na pratica. Esse circuito pode permanecer 
estavel indefinidamente, desde que seja aplicada energia (nao mostrado). Mais adiante, veremos os circuitos de 
memoria que se esquecem rapido do estado em que estao, a menos que, de alguma forma, sejam “relembrados” 
constantemente. 


3.3.2 Flip-flops 

Em muitos circuitos e necessario ler o valor em determinada linha em dado instante, e armazena-lo. Nessa 
variante, denominada flip-flop, a transigao de estado nao ocorre quando o clock e 1, mas durante a transigao de 
0 para 1 (borda ascendente), ou de 1 para 0 (borda descendente). Assim, o comprimento do pulso do clock nao 
e importante, contanto que as transigoes ocorram rapidamente. 

Para dar enfase, vamos repetir qual e a diferenga entre um flip-flop e um latch. Um flip-flop e disparado pela 
borda, enquanto um latch e disparado pelo nivel. Contudo, fique atento, porque esses termos sao muito confun- 
didos na literatura. Muitos autores usam “ flip-flop ” quando estao se referindo a um latch, e vice-versa. 

Ha varias formas de projetar um flip-flop. Por exemplo, se houvesse alguma maneira de gerar um pulso muito 
curto na borda ascendente do sinal de clock, esse pulso poderia ser alimentado para um latch D. Na verdade, essa 
maneira existe, e o circuito para ela e mostrado na Figura 3.24(a). 

A primeira vista, poderia parecer que a salda da porta and seria sempre zero, uma vez que a operagao and de 
qualquer sinal com seu inverso e zero, mas a situagao e um pouco diferente disso. O inversor tern um atraso de propa¬ 
gagao pequeno, mas nao zero, e e esse atraso que faz o circuito funcionar. Suponha que megamos a tensao nos quatro 
pontos de medigao a, b, c e d. O sinal de entrada, medido em a, e um pulso de clock longo, como mostrado na parte 
inferior da Figura 3.24(b). O sinal em h e mostrado acima dele. Observe que ele esta invertido e tambem ligeiramente 
atrasado, quase sempre de alguns nanossegundos, dependendo do tipo de inversor utilizado. 

O sinal em c tambem esta atrasado, mas apenas pelo tempo correspondente a propagagao (a velocidade da 
luz) do sinal. Se a distancia flsica entre a e c for, por exemplo, 20 micra, entao o atraso de propagagao e 0,0001 
ns, que decerto e desprezlvel em comparagao com o tempo que o sinal leva para se propagar pelo inversor. Assim, 
para todos os efeitos e propositos, o sinal em c e praticamente identico ao sinal em a. 
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Quando se efetua uma operagao and com as entradas para a porta and, b e c, o resultado e um pulso 
curto, como mostra a Figura 3.24(b), onde a largura do pulso, A, e igual ao atraso da porta do inversor, em 
geral 5 ns ou menos. A salda da porta and e exatamente esse pulso deslocado pelo atraso da porta and, como 
mostrado na parte superior da Figura 3.24(b). Esse deslocamento de tempo significa apenas que o latch D 
sera ativado com um atraso fixo apos a fase ascendente do clock , mas nao tern efeito sobre a largura do pulso. 
Em uma memoria com tempo de ciclo de 10 ns, um pulso de 1 ns para informar quando ler a linha D pode 
ser curto o bastante, caso em que o circuito completo pode ser o da Figura 3.25. Vale a pena observar que 
esse projeto d e flip-flop e atraente porque e facil de entender, embora, na pratica, sejam usados flip-flops 
mais sofisticados. 


Figura 3.24 (a) Gerador de pulso. (b) Temporizacao em quatro pontos do circuito. 
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Figura 3.25 


Flip-flop D. 
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Os slmbolos padronizados para latches e flip-flops sao mostrados na Figura 3.26. A Figura 3.26(a) e um latch 
cujo estado e carregado quando o clock, CK, e 1, ao contrario da Figura 3.26(b), que e um latch cujo clock costuma 
ser 1, mas cai para 0 momentaneamente para carregar o estado a partir de D. As figuras 3.26(c) e (d) sa o flip-flops 
em vez de latches, o que e indicado pelo slmbolo em angulo nas entradas do clock. A Figura 3.26(c) muda de estado 
na borda ascendente do pulso do clock (transigao de 0 para 1), enquanto a Figura 3.26(d) muda de estado na borda 
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descendente (transigao de 1 para 0). Muitos latches e flip-flops (mas nao todos) tambem tem Q como uma salda, e 
alguns tem duas entradas adicionais Set ou Preset (que forgam o estado para Q = 1) e Reset ou Clear (que forgam 
o estado para Q = 0). 


Figura 3.26 Latches e flip-flops D. 
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3.3.3 Registradores 

Flip-flops podem ser combinados em grupos para criar registradores, que mantem tipos de dados com 
comprimentos maiores do que 1 bit. O registrador na Figura 3.27 mostra como oit o flip-flops podem ser 
ligados para formar um registrador armazenador de 8 bits. O registrador aceita um valor de entrada de 8 
bits (10 a 17) quando o clock CK fizer uma transigao. Para implementar um registrador, todas as linhas de 
clock sao conectadas ao mesmo sinal de entrada CK, de modo que, quando o clock fizer uma transigao, 
cada registrador aceitara o novo valor de dados de 8 bits no barramento de entrada. Os proprios flip-flops 
sao do tipo da Figura 3.26(d), mas as bolhas de inversao nos flip-flops sao canceladas pelo inversor ligado 
ao sinal de clock CK, de modo que os flip-flops sao carregados na transigao ascendente do clock. Todos 
os oito sinais clear tambem sao ligados, de modo que, quando o sinal clear CLR passar para 0, todos os 
flip-flops serao forgados a passar para o seu estado 0. Caso voce queira saber por que o sinal de clock CK 
e invertido na entrada e depois invertido novamente em cada flip-flop, um sinal de entrada pode nao ter 
corrente suficiente para alimentar todos os oito flip-flops; o inversor da entrada, na realidade, esta sendo 
usado como um amplificador. 


Figura 3.27 Um registrador de 8 bits construido a part de flip-flops de unico bit. 
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Quando tivermos projetado um registrador de 8 bits, poderemos usa-lo como um bloco de montagem para 
criar registradores maiores. Por exemplo, um registrador de 32 bits poderia ser criado pela combinagao de dois 
registradores de 16 bits, unindo seus sinais de clock CK e sinais de clear CLR. Veremos os registradores e seus 
usos com mais detalhes no Capitulo 4. 
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3.3.4 Organizacao da memoria 

Embora agora tenhamos progredido de uma simples memoria de 1 bit da Figura 3.23 para a de 8 bits 
da Figura 3.27, para construir memorias grandes e preciso uma organizagao diferente, na qual palavras 
individuais podem ser enderegadas. Uma organizagao de memoria muito utilizada e que obedece a esse 
criterio e mostrada na Figura 3.28. Esse exemplo ilustra uma memoria com quatro palavras de 3 bits. Cada 
operagao le ou escreve uma palavra completa de 3 bits. Embora uma capacidade total de memoria de 12 
bits seja pouco mais do que noss o flip-flop octal, ela requer um numero menor de pinos e, mais importante, 
o projeto pode ser estendido com facilidade para memorias grandes. Observe que o numero de palavras e 
sempre uma potencia de 2. 


Figura 3.28 Diagrama logico para uma memoria 4x3. Cada linha e uma das quatro palavras de 3 bits. Uma operacao de leitura ou 
escrita sempre le ou escreve uma palavra completa. 
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Embora a primeira vista talvez parega complicada, a memoria da Figura 3.28 na verdade e bastante 
simples devido a sua estrutura regular. Ela tem oito linhas de entrada e tres de salda. Tres entradas sao de 
dados: Io, Ii e U; duas sao para o enderego: A 0 e Ai; e tres sao para controle: cs para chip select (selecionar 
chip), rd para distinguir entre ler e escrever e oe para output enable (habilitar salda). As tres saldas sao para 
dados: Oo, Oi e O2. E interessante notar que essa memoria de 12 bits requer menos sinais que o registra- 
dor de 8 bits anterior. Este requer 20 sinais, incluindo alimentagao e terra, enquanto a memoria de 12 bits 
requer apenas 13 sinais. O bloco de memoria requer menos sinais porque, diferente do registrador, os 
bits de memoria compartilham um sinal de salda. Nessa memoria, cada um dos 4 bits de memoria compar- 
tilha um sinal de salda. O valor das linhas de enderego determina quais dos 4 bits de memoria pode receber 
ou enviar um valor. 

Para selecionar esse bloco de memoria, a logica externa deve estabelecer cs alto e tambem rd alto (1 logico) 
para leitura e baixo (0 logico) para escrita. As duas linhas de enderego devem ser ajustadas para indicar qual das 
quatro palavras de 3 bits deve ser lida ou escrita. Para uma operagao de leitura, as linhas de entrada de dados 
nao sao usadas, mas a palavra selecionada e colocada nas linhas de salda de dados. Para uma operagao de escrita, 
os bits presentes nas linhas de entrada de dados sao carregados na palavra de memoria selecionada; as linhas de 
salda de dados nao sao usadas. 

Agora, vamos examinar atentamente a Figura 3.28 para ver como isso funciona. As quatro portas and de 
selegao de palavras a esquerda da memoria formam um decodificador. Os inversores de entrada foram instalados 
de modo que cada porta e habilitada (salda e alta) por um enderego diferente. Cada porta comanda uma linha 
de selegao de palavra, de cima para baixo, para as palavras 0, 1, 2 e 3. Quando o chip e selecionado para uma 
escrita, a linha vertical rotulada cs • rd estara alta, habilitando uma das quatro portas de escrita, dependendo de 
qual linha de selegao de palavra esteja alta. A salda da porta de escrita comanda todos os sinais ck para a palavra 
selecionada, carregando os dados de entrada nos flip-flops para aquela palavra. Uma escrita e efetuada apenas se 
cs estiver alto e rd estiver baixo, e, ainda assim, somente a palavra selecionada por A 0 e A\ e escrita; as outras 
palavras nao sao alteradas. 

Ler e semelhante a escrever. A decodificagao de enderego e identica a da escrita. Mas agora a linha cs * rd esta 
baixa, portanto, todas as portas de escrita estao desabilitadas e nenhum dos flip-flops e modificado. Em vez 
disso, a linha de selegao de palavra que for escolhida habilita as portas and vinculadas aos Q bits da palavra 
selecionada. Portanto, a palavra selecionada entrega seus dados as portas or de quatro entradas na parte inferior 
da figura, enquanto as outras tres palavras produzem Os. Em consequencia, a salda das portas or e identica ao 
valor armazenado na palavra selecionada. As tres palavras nao selecionadas nao dao nenhuma contribuigao a 
salda. 

Embora pudessemos ter projetado um circuito no qual as tres portas or fossem diretamente ligadas as tres 
linhas de salda de dados, essa operagao as vezes causa problemas. Em particular, mostramos que as linhas de 
entrada de dados e as linhas de salda de dados sao diferentes, porem, nas memorias em si, as mesmas linhas sao 
usadas. Se tivessemos vinculado as portas or as linhas de salda de dados, o chip tentaria produzir dados, isto e, 
forgar cada linha a um valor especlfico, mesmo nas escritas, interferindo desse modo com os dados de entrada. 
Por essa razao, e desejavel ter um meio de conectar as portas or as linhas de salda de dados em leituras, mas 
desconecta-las completamente nas escritas. O que precisamos e de um comutador eletronico que possa estabele¬ 
cer ou interromper uma conexao em poucos nanossegundos. 

Felizmente, esses comutadores existem. A Figura 3.29(a) mostra o slmbolo para o que denominamos buffer 
nao inversor, que tem uma entrada e uma salda de dados e uma entrada de controle. Quando a entrada de con¬ 
trole estiver alta, o buffer age como um fio, como mostra a Figura 3.29(b). Quando a entrada de controle esti¬ 
ver baixa, ele age como um circuito aberto, como mostra a Figura 3.29(c); e como se alguem desconectasse a 
salda de dados do resto do circuito com um alicate de corte. Contudo, ao contrario do que aconteceria no caso 
do alicate de corte, a conexao pode ser restaurada logo em seguida, dentro de alguns nanossegundos, apenas 
fazendo o sinal de controle ficar alto novamente. 

A Figura 3.29(d) mostra um buffer inversor, que funciona como um inversor normal quando o controle 
estiver alto, e desconecta a salda do circuito quando o controle estiver baixo. Ambos os tipos de buffers sao 
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Figura 3.29 


(a) Buffer nao inversor. (b) Efeito de (a) quando o controle esta alto, (c) Efeito de (a) quando o controle esta baixo. (d) 
Buffer inversor. 
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dispositivos de tres estados, porque podem produzir 0, 1, ou nenhum dos dois (circuito aberto). Buffers tambem 
amplificam sinais, portanto, podem comandar muitas entradas simultaneamente. As vezes, eles sao usados em 
circuitos por essa razao, mesmo quando suas propriedades de comutagao nao sao necessarias. 

Voltando ao circuito de memoria, agora ja deve estar claro para que servem os tres buffers nao inversores 
nas linhas de salda de dados. Quando cs, rd e oe estiverem todos altos, o sinal output enable tambem esta alto, 
habilitando os buffers e colocando uma palavra nas linhas de salda. Quando qualquer um dos cs, rd ou oe estiver 
baixo, as saldas de dados sao desconectadas do res to do circuito. 

3.3.5 Chips de memoria 

O bom da memoria da Figura 3.28 e que ela pode ser ampliada com facilidade para tamanhos maiores. Em 
nosso desenho, a memoria e 4 x 3, isto e, quatro palavras de 3 bits cada. Para amplia-la para 4x8, basta adicionar 
cinco colunas de quatro flip-flops cada, bem como cinco linhas de entrada e cinco linhas de salda. Para passar de 
4x3 para 8x3, devemos acrescentar quatro linhas de tres flip-flops cada, bem como uma linha de enderego Aj. 
Com esse tipo de estrutura, o numero de palavras na memoria deve ser uma potencia de 2 para que haja o maximo 
de eficiencia, mas o numero de bits em uma palavra pode ser qualquer um. 

Como a tecnologia de circuitos integrados se ajusta bem a fabricagao de chips cuja estrutura interna e um 
padrao bidimensional repetitivo, chips de memoria sao uma aplicagao ideal para ela. A medida que a tecnologia 
melhora, o numero de bits que podem ser colocados em um chip continua crescendo, normalmente por um fator 
de dois a cada 18 meses (lei de Moore). Os chips maiores nem sempre tornam os menores obsoletos devido aos 
diferentes compromissos entre capacidade, velocidade, energia, prego e conveniencia da interface. Em geral, os 
chips maiores disponlveis no momento sao vendidos por pregos mais elevados, portanto, sao mais caros por bit 
do que os antigos, menores. 

Ha varios modos de organizar o chip para qualquer tamanho de memoria dado. A Figura 3.30 mostra duas 
organizagoes posslveis para um chip de memoria mais antigo de 4 Mbits de tamanho: 512 K x 8 e 4.096 K x 1. (A 
proposito, os tamanhos de chips de memoria costumam ser citados em bits em vez de bytes, e por isso adotaremos 
essa convengao.) Na Figura 3.30(a), sao necessarias 19 linhas de enderego para enderegar um dos 2 19 bytes e oito 
linhas de dados para carregar e armazenar o byte selecionado. 

Cabe aqui uma observagao sobre tecnologia. Em alguns pinos, a aha tensao provoca uma agao. Em outros, e 
a baixa tensao que causa uma agao. Para evitar confusao, preferimos man ter a coerencia e dizer sempre que o sinal 
e afirmado (em vez de dizer que fica alto ou baixo), o que significa que foi disparado para provocar alguma agao. 
Assim, para alguns pinos, afirma-lo significa estabelece-lo alto. Para outros, significa estabelecer o pino baixo. Os 
nomes de sinais de pinos afirmados baixos sao distinguidos por uma barra superior. Assim, um sinal com rotulo 
cs e ativado alto, mas um sinal com rotulo cs e ativado baixo. O oposto de afirmado e negado. Quando nada de 
especial estiver acontecendo, os pinos sao negados. 
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Agora, vamos voltar ao nosso chip de memoria. Uma vez que um computador costuma ter muitos chips 
de memoria, e preciso um sinal para selecionar o chip necessario no momento em questao, de modo que ele 
responda e todos os outros nao. O sinal cs (chip select - selegao de chip) existe para essa finalidade e e ativado 
para habilitar o chip. Alem disso, e preciso uma maneira de distinguir entre leituras e escritas. O sinal we (write 
enable - habilitar escrita) e usado para indicar que os dados estao sendo escritos, e nao lidos. Por fim, o sinal oe 
(output enable - habilitar salda) e afirmado para comandar os sinais de salda. Quando ele nao e afirmado, a salda 
do chip e desconectada do circuito. 

Na Figura 3.30(b), e usado um esquema de enderegamento diferente. Esse chip e organizado internamente 
como uma matriz 2.048 x 2.048 de celulas de 1 bit, o que da 4 Mbits. Para enderegar o chip, em primeiro lugar 
uma linha e selecionada ao se colocar seu numero de 11 bits nos pinos de enderego. Entao o ras (row address 
strobe - strobe de enderego de linha) e afirmado. Em seguida, um numero de coluna e colocado nos pinos de 
enderego e o cas (column address strobe - strobe de enderego de coluna) e afirmado. O chip responde aceitando 
ou entregando um bit de dados. 

Chips de memoria de grande porte costumam ser construldos como matrizes n x n enderegadas por linha 
e coluna. Essa organizagao reduz o numero de pinos requerido, mas tambem torna mais lento o enderegamento 
do chip, ja que sao necessarios dois ciclos, um para a linha e outro para a coluna. Para recuperar um pouco da 
velocidade perdida por esse projeto, alguns chips de memoria podem receber um enderego de linha acompanhado 
por uma sequencia de enderegos de coluna para acessar bits consecutivos em uma linha. 

Anos atras, os maiores chips de memoria costumavam ser organizados como os da Figura 3.30(b). A medida 
que as palavras de memoria cresciam de 8 bits ate 32 bits e mais, os chips de 1 bit comegaram a ser inconvenien- 
tes. Construir uma memoria com uma palavra de 32 bits usando chips de 4.096 K x 1 requer 32 chips em paralelo. 
Esses 32 chips tern capacidade total de no mlnimo 16 MB, ao passo que usar chips de 512 K x 8 requer somente 
quatro chips em paralelo e permite memorias pequenas, de ate 2 MB. Para evitar ter 32 chips para memoria, 
grande parte dos fabricantes langou famllias com 4, 8 e 16 bits de largura. A situagao com as palavras de 64 bits 
e pior ainda, e claro. 

Dois exemplos de chips modernos de 512 Mbits sao dados na Figura 3.31. Esses chips tern quatro bancos de 
memoria internos de 128 Mbits cada, o que requer duas linhas de selegao de banco para escolher um banco. O 
projeto da Figura 3.31(a) e de um chip de 32 M x 16 com 13 linhas para o sinal ras, 10 linhas para o sinal cas e 
2 linhas para a selegao de banco. Juntos, esses 25 sinais permitem o enderegamento de cada uma das 2 25 celulas 


Figura 3.30 


Dois modos de organizar um chip de memoria de 4 Mbits. 
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internas de 16 bits. Em comparagao, a Figura 3.31(b) apresenta um projeto de 128 M x 4 com 13 linhas para o 
sinal ras, 12 linhas para o sinal cas e 2 linhas para a selegao de banco. Nesse caso, 27 sinais podem selecionar 
quaisquer das 2 27 celulas internas de 4 bits a serem enderegadas. A decisao sobre o numero de linhas e de colunas 
que um chip tern e tomada por razoes de engenharia. A matriz nao precisa ser quadrada. 


Figura 3.31 Dois modos de organizar um chip de memoria de 512 Mbits. 
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Esses exemplos demonstram duas questoes separadas e independentes para o projeto do chip de memoria. 
A primeira e a largura da salda (em bits): o chip entrega 1, 4, 8, 16 ou algum outro numero de bits de uma vez 
so? A segunda e se todos os bits de enderego sao apresentados em pinos separados de uma vez so ou se as linhas 
e colunas sao apresentadas em sequencia, como nos exemplos da Figura 3.31. Um projetista de chips de memoria 
tern de responder a ambas as perguntas antes de iniciar o projeto do chip. 

3.3.6 RAMs e ROMs 

Todas as memorias que estudamos ate aqui podem ser escritas e lidas. Elas sao denominadas memorias RAM 
(Random Access Memory - memoria de acesso aleatorio), um nome suspeito porque todos os chips de memoria 
tern acesso aleatorio. No entanto, o termo ja e muito utilizado para que o mudemos agora. RAMs podem ser de 
duas variedades, estaticas e dinamicas. Nas estaticas (Static RAMs - SRAMs), a construgao interna usa circuitos 
similares ao nosso flip-flop D basico. Uma das propriedades dessas memorias e que seus conteudos sao conser- 
vados enquanto houver fornecimento de energia: segundos, minutos, horas e ate mesmo dias. As RAMs estaticas 
sao muito rapidas. Um tempo de acesso tlpico e da ordem de um nanossegundo ou menos. Por essa razao, elas sao 
muito usadas como memoria cache. 

RAMS dinamicas (Dynamic RAMs - DRAMs), ao contrario, nao usam flip-flops. Em vez disso, uma RAM 
dinamica e um arranjo de celulas, cada uma contendo um transistor e um pequenino capacitor. Os capacitores 
podem ser carregados ou descarregados, permitindo que Os e Is sejam armazenados. Como a carga eletrica tende 
a vazar, cada bit em uma RAM dinamica deve ser renovado (recarregado) com alguns milissegundos de intervalo 
para evitar que os dados desaparegam. Como a logica externa e que tern de cuidar da renovagao, as RAMs dinami¬ 
cas precisam de uma interface mais complexa do que as estaticas, embora em muitas aplicagoes essa desvantagem 
seja compensada por suas maiores capacidades. 
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Visto que as RAMs dinamicas precisam de apenas um transistor e urn capacitor por bit, em comparagao com 
os seis transistores por bit para a melhor RAM estatica, elas tem densidade muito alta (muitos bits por chip). Por 
essa razao, as memorias principais quase sempre sao construldas com RAMs dinamicas. Contudo, essa grande 
capacidade tem um prego: sao lentas (dezenas de nanossegundos). Dessa maneira, a combinagao de uma cache 
de RAM estatica e uma memoria principal de RAM dinamica tenta combinar as boas propriedades de cada uma. 

Existem diversos tipos de RAMs dinamicas. A mais antiga ainda existente (em computadores antigos) e a 
DRAM FPM (Fast Page Mode - modo de pagina rapida). Ela e organizada internamente como uma matriz 
de bits e funciona da seguinte maneira: o hardware escolhe um enderego de linha e entao seleciona enderegos de 
coluna um a um, como descrevemos para o ras e o cas no contexto da Figura 3.30. Sinais expllcitos informam 
a memoria quando e hora de responder, de modo que ela funciona de forma asslncrona com o clock do sistema 
principal. 

A DRAM FPM foi substitulda pela EDO (Extended Data Output - salda de dados ampliada), que permite 
iniciar uma segunda referenda a memoria antes de ser conclulda a referenda a memoria precedente. Esse parale- 
lismo simples nao acelerava uma referenda individual a memoria, mas melhorava a largura de banda da memoria, 
resultando em mais palavras por segundo. 

FPM e EDO funcionavam bastante bem quando os tempos de ciclo de chips de memoria eram de 12 nanos¬ 
segundos ou mais lentos. Quando os processadores ficaram tao rapidos que era mesmo preciso ter memorias mais 
rapidas, a FPM e a EDO foram substituldas pela SDRAM (Synchronous DRAM - DRAM slncrona), que e uma 
hlbrida de RAM estatica e dinamica, comandada pelo clock do sistema principal. A grande vantagem da SDRAM e 
que o clock elimina a necessidade de sinais de controle para informar ao chip de memoria quando responder. Em 
vez disso, a CPU informa a memoria por quantos ciclos ela deve funcionar e entao a inicia. Em cada ciclo subse- 
quente, a memoria entrega 4, 8 ou 16 bits, dependendo de quantas linhas de salda ela tem. Eliminar a necessidade 
de sinais de controle aumenta a taxa de dados entre CPU e memoria. 

A melhoria seguinte em relagao a SDRAM foi a SDRAM DDR (Double Data Rate - dupla taxa de dados). 
Com esse tipo de memoria, o chip de memoria produz salda na borda ascendente do clock e tambem na borda 
descendente, dobrando a taxa de dados. Portanto, um chip DDR de 8 bits de largura funcionando a 200 MHz 
entrega dois valores de 8 bits 200 milhoes de vezes por segundo (por um curto intervalo, e claro), o que da uma 
taxa de salda (burst) teorica de 3,2 Gbps. As interfaces de memoria DDR2 e DDR3 oferecem desempenho adi- 
cional em relagao a DDR, aumentando as velocidades do barramento de memoria para 533 MHz e 1.067 MHz, 
respectivamente. No momento em que este livro era impresso, os chips DDR3 mais velozes poderiam enviar 
dados a 17,067 GB/s. 

• Chips de memoria nao volatil 

RAMs nao sao o unico tipo de chip de memoria. Em muitas aplicagoes, como brinquedos, eletrodomesti- 
cos e carros, o programa e alguns dos dados devem permanecer armazenados mesmo quando o fornecimento 
de energia for interrompido. Alem do mais, uma vez instalados, nem o programa nem os dados sao alterados. 
Esses requisitos levaram ao desenvolvimento de ROMs (Read-Only Memories - memorias somente de leitura), 
que nao podem ser alteradas nem apagadas, seja intencionalmente ou nao. Os dados de uma ROM sao inseridos 
durante sua fabricagao por um processo que expoe um material fotossenslvel por meio de uma mascara que con- 
tem o padrao de bits desejado e entao grava o padrao sobre a superflcie exposta (ou nao exposta). A unica maneira 
de mudar o programa em uma ROM e substituir o chip inteiro. 

ROMs sao muito mais baratas que RAMs quando fabricadas em volumes grandes o bastante para cobrir o 
custo da fabricagao da mascara. Todavia, sao inflexlveis porque nao podem ser alteradas apos a manufatura, e 
o tempo decorrido entre fazer o pedido e receber as ROMs pode chegar a semanas. Para facilitar o desenvol¬ 
vimento pelas empresas de novos produtos com ROM, foi inventada a PROM (Programmable ROM - ROM 
programavel). Uma PROM e como uma ROM, exceto que ela pode ser programada (uma vez) em campo, elimi- 
nando o tempo de espera entre produgao e entrega. Muitas PROMs contem um arranjo de minusculos fuslveis 
em seu interior. Um fuslvel especlfico pode ser queimado selecionando sua linha e coluna e entao aplicando 
alta tensao a um pino especial no chip. 
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O desenvolvimento seguinte nessa linha foi a EPROM (Erasable PROM - PROM apagavel), que nao so pode 
ser programada, mas tambem apagada em campo. Quando a janela de quartzo de uma EPROM e exposta a uma 
forte luz ultravioleta durante 15 minutos, todos os bits sao definidos em 1. Se a expectativa e ter muitas alteragoes 
durante o ciclo de projeto, as EPROMs sao muito mais economicas do que as PROMs, porque podem ser reuti- 
lizadas. As EPROMS costumam ter a mesma organizagao que as RAMs estaticas. A EPROM 27C040 de 4 Mbits, 
por exemplo, usa a organizagao da Figura 3.31(a), que e tlpica de uma RAM estatica. O interessante e que chips 
antigos como este nao desaparecem. Eles apenas se tornam mais baratos e sao usados em produtos inferiores, 
que sao altamente senslveis ao custo. Um 27C040 agora pode ser comprado no varejo por menos de US$ 3, e por 
muito menos em grandes volumes. 

Ainda melhor do que a EPROM e a EEPROM, que pode ser apagada aplicando-se pulsos em vez de ser 
exposta a luz ultravioleta dentro de uma camara especial. Alem disso, uma EEPROM pode ser reprogramada no 
local, enquanto uma EPROM tern de ser inserida em um dispositivo especial de programagao de EPROM para ser 
programada. Uma desvantagem e que a capacidade das maiores EEPROMs e em geral somente 1/64 da capacidade 
das EPROMs comuns, e sua velocidade e a metade. EEPROMs nao podem competir com DRAMs ou SRAMs por¬ 
que sao 10 vezes mais lentas, sua capacidade e 100 vezes menor e sao muito mais caras. Elas sao usadas somente 
em situagoes em que sua nao volatilidade for crucial. 

Um tipo mais recente de EEPROM e a memoria flash. Diferente da EPROM, que e apagada pela exposigao a 
luz ultravioleta, e da EEPROM, cujos bytes podem ser apagados, os blocos da memoria flash podem ser apagados 
e reescritos. Como a EEPROM, a memoria flash pode ser apagada sem ser removida do circuito. Varios fabricantes 
produzem pequenas placas de circuito impresso com ate 64 GB de memoria flash que sao utilizadas como um 
“filme” para armazenar fotos em cameras digitais e muitas outras finalidades. Como ja vimos no Capltulo 2, a 
memoria flash agora esta comegando a substituir os discos mecanicos. Assim como um disco, a memoria flash 
oferece tempos de acesso menores com menor consumo de energia, mas com um custo por bit muito mais alto. 
Um resumo dos diversos tipos de memoria pode ser visto na Figura 3.32. 


Figura 3.32 Comparacao entre varios tipos de memorias (Arranjo de portas programavel em campo). 



• Field-programmable gate arrays 

Como vimos no Capltulo 1, Field-Programmable Gate Arrays (FPGAs) sao chips que contem logica pro¬ 
gramavel, de modo que podem formar um circuito logico qualquer simplesmente carregando o FPGA com dados 
de configuragao apropriados. A principal vantagem dos FPGAs e que novos circuitos de hardware podem ser 
construldos em horas, em vez dos meses necessarios para fabricar ICs. Porem, os circuitos integrados nao serao 
extintos, pois ainda possuem uma vantagem de custo significativa em relagao aos FPGAs para aplicagoes de alto 
volume, e tambem sao mais rapidos e usam muito menos energia. Contudo, com suas vantagens de tempo de 
projeto, os FPGAs sao usados constantemente para prototipo de projeto e aplicagoes com baixo volume. 
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Agora, vejamos o interior de um FPGA para entender como ele pode ser usado para executar uma grande gama 
de circuitos logicos. O chip FPGA contem dois componentes principais que sao replicados muitas vezes: LUTs 
(LookUp Tables - tabelas de pesquisa) e interconexoes programaveis. Vejamos agora como estes sao utilizados. 

Uma LUT, mostrada na Figura 3.33(a), e uma pequena memoria programavel que produz um sinal de salda 
opcionalmente para um registrador, que e entao enviada para a interconexao programavel. A memoria progra¬ 
mavel e usada para criar uma fungao logica qualquer. A LUT na figura tern uma memoria de 16 x 4, que pode 
simular qualquer circuito logico com 4 bits de entrada e 4 bits de salda. A programagao da LUT requer a carga 
da memoria com as respostas apropriadas da logica combinatoria sendo simulada. Em outras palavras, se a logica 
combinatoria produz o valor Y quando recebe a entrada X, o valor Y e escrito na LUT no Indice X. 

O projeto de exemplo na Figura 3.33(b) mostra como uma unica LUT de 4 entradas poderia executar um 
contador de 3 bits com reset. O exemplo de contador conta de modo contlnuo somando um (modulo 4) ao valor 
atual, a menos que um sinal de reset CLR seja afirmado, que nesse caso retorna o valor do contador a zero. 

Para por em pratica o contador do exemplo, as quatro entradas superiores da LUT sao todas zero. Essas 
entradas enviam o valor zero quando o contador e reiniciado. Assim, o bit mais significativo da entrada da LUT 
(I 3 ) representa a entrada de reset (CLR) que e ativada com uma logica 1. Para as entradas restantes da LUT, o 
valor no indice I0..3 da LUT contem o valor (I + 1) modulo 4. Para concluir o projeto, o sinal de salda O0..3 deve 
ser conectado, usando a interconexao programavel para o sinal de entrada interno I0..3. 

Para entender melhor o contador baseado em FPGA com reset, vamos considerar sua operagao. Se, por exem¬ 
plo, o estado atual do contador for 2 e o sinal de reset (CLR) nao for afirmado, o enderego de entrada da LUT sera 
2, que produzira uma salda de 3 nos flip-flops. Se o sinal de reset (CLR) fosse afirmado para o mesmo estado, a 
entrada na LUT seria 6, que produziria o proximo estado de 0. 

Apesar de tudo, esse pode parecer um modo arcaico de se construir um contador com reset e, de fato, um 
projeto totalmente personalizado, com um circuito incrementador e sinais de reset para os flip-flops, seria menor, 
mais rapido e usaria menos energia. A principal vantagem do projeto baseado em FPGA e que voce pode ajusta-lo 
em uma hora em casa, enquanto o projeto totalmente personalizado, mais eficiente, deve ser fabricado com base 
no sillcio, o que poderia levar pelo menos um mes. 


Figura 3.33 


(a) Uma tabela de pesquisa (LUT) de um FPGA. (b) A configuracao da LUT para criar um contador de apagamento de 3 bits. 



Designagao de sinal 
FPGA Contador 


I3 

CLR 

O2..0 

0 

c\i 

0 

CK 

CK 


(a) 

Enderego Dados 


0 

1 

1 

2 

2 

3 

3 

0 


Enderego Dados 


4 

0 

5 

0 

CD 

0 

7 

0 


(b) 


Para usar um FPGA, o projeto precisa ser descrito usando uma descrigao de circuito ou uma linguagem de 
descrigao de hardware (ou seja, uma linguagem de programagao usada para descrever estruturas de hardware). 
O projeto e entao processado por um sintetizador, que mapeia o circuito para uma arquitetura FPGA especlfica. 
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Um desafio do uso de FPGAs e que o projeto que voce quer mapear nunca parece ser o suficiente. Os FPGAs sao 
fabricados com uma quantidade variavel de LUTs, com quantidades maiores custando mais. Em geral, se o seu 
projeto nao for suficiente, voce tera que simplificar ou abrir mao de alguma funcionalidade, ou entao comprar 
um FPGA maior (e mais caro). Projetos muito grandes podem nao caber nos maiores FPGAs, exigindo que o 
projetista mapeie o projeto em varios FPGAs; essa tarefa e definitivamente mais diflcil, porem, ainda muito mais 
facil do que projetar um circuito integrado personalizado completo. 


3.4 Chips de CPU e barramentos 

Agora que ja temos todas essas informagoes sobre circuitos integrados, clocks e chips de memoria, pode- 
mos comegar a juntar todas as pegas, examinando sistemas completos. Nesta segao, estudaremos primeiro 
alguns aspectos gerais das CPUs do ponto de vista do nivel logico digital, incluindo a pinagem ( pinout ) (isto e, 
o que significam os sinais dos varios pinos). Como as CPUs estao tao entrelagadas com o projeto dos barramen¬ 
tos que utilizam, tambem faremos uma introdugao ao projeto de barramentos nesta segao. Nas segoes seguintes, 
daremos exemplos detalhados de CPUs e seus barramentos e de como e a interface entre eles. 

3.4.1 Chips de CPU 

Todas as CPUs modernas sao contidas em um unico chip, o que faz sua interagao com o resto do sistema 
ser bem definida. Cada chip de CPU tern um conjunto de pinos por meio dos quais deve ocorrer toda sua comu- 
nicagao com o mundo exterior. Alguns pinos produzem sinais da CPU para o mundo exterior; outros aceitam 
sinais do mundo exterior; alguns podem fazer as duas coisas. Entendendo a fungao de todos esses pinos, podemos 
aprender como a CPU interage com a memoria e os dispositivos de E/S no nivel logico digital. 

Os pinos de um chip de CPU podem ser divididos em tres tipos: de enderego, de dados e de controle. Eles sao 
conectados a pinos similares na memoria e a chips de E/S por meio de um conjunto de fios paralelos, denominado 
barramento. Para buscar uma instrugao, primeiro a CPU coloca o enderego de memoria daquela instrugao em seus 
pinos de enderego. Entao, ela ativa uma ou mais linhas de controle para informar a memoria que ela quer ler uma 
palavra, por exemplo. A memoria responde colocando a palavra requisitada nos pinos de dados da CPU e ativando 
um sinal que informa o que acabou de fazer. Quando percebe esse sinal, a CPU aceita a palavra e executa a instrugao. 

A instrugao pode requisitar leitura ou escrita de palavras de dados, caso em que todo o processo e repetido 
para cada palavra adicional. Mais adiante, vamos entrar nos detalhes do modo de funcionamento da leitura e da 
escrita. Por enquanto, o importante e entender que a CPU se comunica com a memoria e com dispositivos de 
E/S apresentando sinais em seus pinos e aceitando sinais em seus pinos. Nenhuma outra comunicagao e posslvel. 

Dois dos parametros fundamental que determinam o desempenho de uma CPU sao o numero de pinos de 
enderego e o numero de pinos de dados. Um chip com m pinos de enderego pode enderegar ate 2 m localizagoes 
de memoria. Valores comuns de m sao 16, 32 e 64. De modo semelhante, um chip com n pinos de dados pode ler 
ou escrever uma palavra de n bits em uma unica operagao. Valores comuns de n sao 8, 32 e 64. Uma CPU com 8 
pinos de dados efetuara quatro operagoes para ler uma palavra de 32 bits, enquanto uma CPU com 32 pinos de 
dados pode executar a mesma tarefa em uma unica operagao. Assim, o chip com 32 pinos de dados e muito mais 
rapido; porem, invariavelmente, tambem e mais caro. 

Alem dos pinos de enderego e de dados, cada CPU tern alguns pinos de controle. Os pinos de controle regulam 
o fluxo e a temporizagao de dados que vem da CPU e vao para ela, alem de ter outras utilizagoes diversas. Todas as 
CPUs tern pinos para energia eletrica (geralmente +1,2 volt a +1,5 volt), para terra e para um sinal de clock (uma 
onda quadrada com uma frequencia bem definida), mas os outros pinos variam muito de um chip para outro. Nao 
obstante, os pinos de controle podem ser agrupados aproximadamente nas seguintes categorias principais: 

1. Controle de barramento. 

2. Interrupgoes. 
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3. Arbitragem de barramento. 

4. Sinalizagao de coprocessador. 

5. Estado. 

6. Diversos. 


Logo faremos uma breve descrigao de cada uma dessas categorias. Quando examinarmos os chips Intel Core 
i7, TI OMAP4430 e Atmel ATmegal68, mais adiante, daremos mais detalhes. Um chip de CPU generico que usa 
esses grupos de sinais pode ser visto na Figura 3.34. 


Figura 3.34 


Pinagem logica de uma CPU generica. As setas indicam sinais de entrada e sinais de saida. Os segmentos de reta diagonais 
indicam que sao utilizados varios pinos. Ha um numero que indica quantos sao os pinos para uma CPU especffica. 
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A maioria dos pinos de controle do barramento sao saldas da CPU para o barramento (e, portanto, entradas 
para a memoria e chips de E/S) que informam se a CPU quer ler ou escrever na memoria ou fazer outra coisa 
qualquer. A CPU usa esses pinos para controlar o resto do sistema e informar o que ela quer fazer. 

Os pinos de interrupgao sao entradas que vem de dispositivos de E/S para a CPU. Em grande parte dos sis- 
temas, a CPU pode dizer a um dispositivo de E/S que inicie uma operagao e entao continuar e fazer outra coisa 
qualquer enquanto o dispositivo de E/S esta realizando seu trabalho. Quando a E/S estiver conclulda, o chip 
controlador de E/S ativa um sinal em um desses pinos para interromper a CPU e faze-la prestar algum servigo ao 
dispositivo de E/S, por exemplo, verificar se ocorreram erros de E/S. Algumas CPUs tern um pino de saida para 
confirmar o sinal de interrupgao. 

Os pinos de arbitragem de barramento sao necessarios para disciplinar o trafego no barramento de modo 
a impedir que dois dispositivos tentem usa-lo ao mesmo tempo. Do ponto de vista da arbitragem, a CPU e um 
dispositivo e tern de requisitar o barramento como qualquer outro. 

Alguns chips de CPUs sao projetados para funcionar com coprocessadores, como chips de ponto flutuante, 
mas as vezes tambem com chips graficos ou outros chips. Para facilitar a comunicagao entre CPU e coprocessador, 
ha pinos especiais dedicados a fazer e aceitar requisigoes. 

Alem desses sinais, ha outros pinos diversos presentes em algumas CPUs. Alguns deles fornecem ou aceitam 
informagoes de estado, outros sao uteis para depuragao ou para reiniciar o computador, e outros mais estao pre¬ 
sen tes para garantir a compatibilidade com chips de E/S mais antigos. 

3.4.2 Barramentos de computador 

Um barramento e um caminho eletrico comum entre varios dispositivos. Os barramentos podem ser cate- 
gorizados por sua fungao. Podem ser usados no interior da CPU para transportar dados de e para a ULA ou ser 
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externos a CPU, para conecta-la a memoria ou a dispositivos de E/S. Cada tipo tem seus proprios requisitos e 
propriedades. Nesta segao e nas seguintes, focalizaremos barramentos que conectam a CPU a memoria e a dispo¬ 
sitivos de E/S. No capltulo seguinte, examinaremos mais de perto os barramentos internos a CPU. 

Os primeiros computadores pessoais tinham somente um barramento externo, ou barramento do sistema, 
que consistia em 50 a 100 fios de cobre paralelos gravados na placa-mae, com conectores a intervalos regulares 
para ligagao com a memoria e placas de E/S. Os computadores pessoais modernos em geral tem um barramento de 
uso especial entre a CPU e a memoria e (pelo menos) outro barramento para os dispositivos de E/S. Um sistema 
mlnimo, com um barramento de memoria e um barramento de E/S, e ilustrado na Figura 3.35. 


Figura 3.35 Sistema de computador com varios barramentos. 

Chip de CPU 



Controlador 

de 

barramento 


Barramento de 
memoria 


Memoria 


Barramento de E/S 



Na literatura, as vezes os barramentos sao representados por setas largas e sombreadas, como nesta 
figura. A distingao entre essas setas e uma linha reta cortada por um pequeno segmento de reta inclinado 
acompanhado de um numero de bits e sutil. Quando todos os bits sao do mesmo tipo, por exemplo, todos 
sao bits de enderego ou todos sao bits de dados, entao costuma ser usada a representagao pelo segmento de 
reta diagonal. Quando estao envolvidas linhas de enderego, de dados e de controle, a seta larga sombreada 
e a mais comum. 

Embora os projetistas de CPUs tenham liberdade para usar qualquer tipo de barramento que quiserem dentro 
do chip, para possibilitar a ligagao de placas projetadas por terceiros ao barramento de sistema e preciso haver 
regras bem definidas sobre o modo de funcionamento do barramento, as quais todos os dispositivos a ele ligados 
tem de obedecer. Essas regras sao denominadas protocolo de barramento. Alem disso, sao necessarias especifi- 
cagoes mecanicas e eletricas, de modo que placas de terceiros caibam no suporte da placa e tenham conectores 
compatlveis com os da placa-mae, tanto em termos mecanicos quanto em termos de tensoes, temporizagoes etc. 
Ainda assim, outros barramentos nao possuem especificagoes mecanicas, pois sao projetados para serem usados 
dentro de um circuito integrado, por exemplo, para unir componentes dentro de um sistema-em-um-chip (SoC - 
System-on-a-Chip). 

Ha inumeros barramentos em uso no mundo dos computadores. Alguns dos mais conhecidos, no passado 
e atualmente (com exemplos), sao: Omnibus (PDP-8), Unibus (PDP-11), Multibus (8086), barramento VME 
(equipamento para laboratorio de flsica), barramento do IBM PC (PC/XT), barramento ISA (PC/AT), barramento 
EISA (80386), MicroChannel (PS/2), Nubus (Macintosh), barramento PCI (muitos PCs), barramento SCSI (mui- 
tos PCs e estagoes de trabalho), Universal Serial Bus (PCs modernos) e FireWire (equipamentos eletronicos de 
consumo). O mundo provavelmente seria um lugar melhor se todos os barramentos, menos um, desaparecessem 
repentinamente da face da Terra (tudo bem, menos dois, entao). Infelizmente, a padronizagao nessa area parece 
muito improvavel porque muito dinheiro ja foi investido em todos esses sistemas incompatlveis. 
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A proposito, existe outra interconexao, PCI Express, que geralmente e chamada de barramento, mas na ver- 
dade nao e barramento algum. Vamos estuda-la mais adiante neste capitulo. 

Agora, vamos iniciar nosso estudo do funcionamento dos barramentos. Alguns dispositivos ligados a um 
barramento sao ativos e podem iniciar transferencias no barramento, ao passo que outros sao passivos e esperam 
requisites. Os ativos sao denominados mestres; os passivos sao denominados escravos. Quando a CPU ordena a 
um controlador que leia ou escreva um bloco, ela esta agindo como mestre e o controlador de disco, como escra- 
vo. Todavia, mais tarde, o controlador de disco pode agir como um mestre quando manda a memoria aceitar as 
palavras que sao lidas do drive de disco. Varias combinagoes tlpicas mestre e escravo estao relacionadas na Figura 
3.36. Em nenhuma circunstancia a memoria pode ser mestre. 


Figura 3.36 Exemplos de mestres e escravos de barramentos. 
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Os sinais binarios emitidos por dispositivos de computador muitas vezes sao fracos demais para energizar um 
barramento, em especial se ele for relativamente longo ou tiver muitos dispositivos ligados a ele. Por esse motivo, a 
maioria dos mestres de barramento esta conectada a ele por um chip denominado controlador de barramento, que e 
nada mais que um amplificador digital. De modo semelhante, grande parte dos escravos esta conectada ao barramento 
por um receptor de barramento. Quando dispositivos podem agir como mestres e tambem como escravos, e usado um 
chip combinado denominado transceptor de barramento. Essas interfaces de barramento sao com frequencia disposi¬ 
tivos de tres estados, o que permite que flutuem (se desconectem) quando nao sao necessarios ou entao se conectem 
de modo um tanto diferente, denominado coletor aberto, que consegue um efeito semelhante. Quando dois ou mais 
dispositivos em uma linha de coletor aberto ativam a linha ao mesmo tempo, o resultado e o OR booleano de todos os 
sinais. Esse arranjo costuma ser denominado OR cabeado (wired-OR). Na maioria dos barramentos, algumas das linhas 
sao de tres estados, e outras, que precisam da propriedade OR cabeado, sao de coletor aberto. 

Assim como uma CPU, um barramento tambem tern linhas de enderego, de dados e de controle. Contudo, 
nem sempre ha um mapeamento um-para-um entre os pinos da CPU e os sinais do barramento. Por exemplo, 
algumas CPUs tern tres pinos que codificam se ela esta fazendo uma leitura de memoria, uma escrita na memoria, 
uma leitura de E/S, uma escrita de E/S ou alguma outra operagao. Um barramento tlpico poderia ter uma linha 
para leitura de memoria, uma segunda para escrita na memoria, uma terceira para leitura de E/S, uma quarta para 
escrita de E/S e assim por diante. Nesse caso, seria necessario um chip decodificador entre a CPU e o barramento 
para compatibilizar os dois lados, isto e, converter o sinal de 3 bits codificado em sinais separados que podem 
comandar as linhas do barramento. 

Projeto e operagao de barramento sao questoes de tamanha complexidade que ha inumeros livros escritos 
apenas sobre isso (Anderson et al., 2004; Solari e Willse, 2004). Os principais topicos do projeto de barramento 
sao largura, clock , arbitragem e operagoes. Cada um desses topicos tern impacto substancial sobre a velocidade e 
a largura de banda do barramento. Agora, examinaremos cada um nas quatro segoes seguintes. 

3.4.3 Largura do barramento 

A largura do barramento e o parametro de projeto mais obvio. Quanto mais linhas de enderego tiver um bar¬ 
ramento, mais memoria a CPU pode enderegar diretamente. Se um barramento tiver n linhas de enderego, entao 
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uma CPU pode usa-las para enderegar 2 n localizagoes de memoria diferentes. Para memorias de grande porte, os 
barramentos precisam de muitas linhas de enderego, o que parece algo bem simples. 

O problema e que barramentos largos precisam de mais fios do que os estreitos, e tambem ocupam mais 
espago flsico (por exemplo, na placa-mae), alem de precisar de conectores maiores. Todos esses fatores encare- 
cem o barramento e, por isso, ha um compromisso entre tamanho maximo de memoria e custo do sistema. Um 
sistema com barramento de enderegos de 64 linhas e 2 32 bytes de memoria custara mais que um com 32 linhas e 
os mesmos 2 32 bytes de memoria. A possibilidade de expansao posterior nao e gratuita. 

O resultado dessa observagao e que muitos projetistas de sistemas tendem a ser imediatistas, o que provoca 
consequencias desastrosas mais tarde. O IBM PC original continha uma CPU 8088 e um barramento de enderegos 
de 20 bits, conforme mostra a Figura 3.37(a). Os 20 bits permitiam ao PC enderegar 1 MB de memoria. 


Figura 3.37 Crescimento de um barramento de enderecos ao longo do tempo. 



(a) 



(b) 



(c) 


Quando langou seu proximo chip de CPU (o 80286), a Intel decidiu aumentar o espago de enderegos para 16 
MB, por isso precisou adicionar quatro linhas de barramento (sem mexer nas 20 originais, por razoes de compa- 
tibilidade), como ilustrado na Figura 3.37(b). Infelizmente, mais linhas de controle tiveram de ser acrescentadas 
para lidar com as novas linhas de enderego. Quando o 80386 foi langado, oito linhas de enderego foram adiciona- 
das, junto com ainda mais linhas de controle, como mostra a Figura 3.37(c). O projeto resultante (o barramento 
EISA) e muito mais confuso do que seria se o barramento tivesse 32 linhas desde o inlcio. 

Nao e apenas o numero de linhas de enderego que tende a crescer com o tempo, mas tambem o numero de 
linhas de dados, porem, por uma razao diferente. Ha dois modos de aumentar a largura de banda de dados de um 
barramento: reduzir o tempo deste (mais transferences por segundo) ou aumentar sua largura de dados (mais 
bits por transference). Acelerar o barramento e posslvel, mas diflcil, porque os sinais trafegam em linhas dife¬ 
rentes com velocidades ligeiramente diferentes, um problema conhecido como atraso diferencial do barramento. 
Quanto mais rapido o barramento, mais serio se torna o atraso diferencial. 

Outro problema com a aceleragao e que isso nao sera compatlvel. Placas antigas, projetadas para os barra¬ 
mentos mais lentos, nao funcionarao com o novo. Invalidar as placas antigas descontentara nao somente seus 
proprietaries, mas tambem os fabricantes. Por conseguinte, a tecnica que costuma ser adotada para melhorar 
o desempenho e adicionar linhas de dados, de forma analoga a Figura 3.37. Todavia, como era de esperar, no 
fim das contas esse crescimento incremental nao leva a um projeto limpo. O IBM PC e seus sucessores, por 
exemplo, passaram de oito linhas de dados para 16 e em seguida para 32, conservando praticamente o mesmo 
barramento. 

Para contornar o problema de barramentos muito largos, as vezes os projetistas op tarn por um barramento 
multiplexado. Nesse projeto, em vez de as linhas de enderegos e dados serem separadas, ha, por exemplo, 32 linhas 
para enderegos e dados juntos. No inlcio de uma operagao de barramento, as linhas sao usadas para o enderego. 
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Mais tarde, sao usadas para dados. Para uma escrita na memoria, por exemplo, isso significa que as linhas de 
enderego devem ser estabelecidas e propagadas para a memoria antes que os dados possam ser colocados no 
barramento. Com linhas separadas, enderegos e dados podem ser colocados juntos. Multiplexar as linhas reduz 
a largura (e o custo) do barramento, mas resulta em um sistema mais lento. Quando tomam suas decisoes, os 
projetistas de barramento tern de pesar cuidadosamente todas essas opgoes. 

3.4.4 Clock do barramento 

Barramentos podem ser divididos em duas categorias distintas, dependendo de seu clock. Um barramento 
slncrono tern uma linha comandada por um oscilador de cristal. O sinal nessa linha consiste em uma onda qua- 
drada com uma frequencia em geral entre 5 e 133 MHz. Todas as atividades do barramento tomam um numero 
inteiro desses ciclos denominados ciclos de barramento. O outro tipo de barramento, o barramento asslncrono, 
nao tern um clock mestre. Ciclos de barramento podem ter qualquer largura requerida e nao sao os mesmos entre 
todos os pares de dispositivos. A seguir, estudaremos cada tipo de barramento. 

• Barramentos sincronos 

Como exemplo do funcionamento de um barramento slncrono, considere o diagrama temporal da Figura 
3.38(a). Nesse exemplo, usaremos um clock de 100 MHz, que da um ciclo de barramento de 10 nanossegundos. 
Embora isso possa parecer um tanto lento em comparagao a velocidades de CPU de 3 GHz ou mais, poucos bar¬ 
ramentos de PCs sao muito mais rapidos. Por exemplo, o popular barramento PCI normalmente funciona a 33 ou 
66 MHz e o barramento PCI-X atualizado (porem agora extinto) funcionava a uma velocidade de ate 133 MHz. 
As razoes por que os barramentos atuais sao lentos ja foram dadas: problemas tecnicos de projeto, como atraso 
diferencial de barramento e necessidade de compatibilidade. 

Em nosso exemplo, admitiremos ainda que ler da memoria leva 15 ns a partir do instante em que o enderego 
esta estavel. Como veremos em breve, com esses parametros, ler uma palavra levara tres ciclos de barramento. O 
primeiro ciclo comega na borda ascendente de Ti e o terceiro termina na borda ascendente de T 4 , como mostra 
a figura. Observe que nenhuma das bordas ascendentes ou descendentes foi desenhada na linha vertical porque 
nenhum sinal eletrico pode trocar seu valor em tempo zero. Nesse exemplo, admitiremos que leva 1 ns para o 
sinal mudar. As linhas de clock , address, data, mreq, rd e wait, estao todas representadas na mesma escala de 
tempo. 

O inlcio de Ti e definido pela borda ascendente do clock. A meio caminho de T\ a CPU coloca o enderego da 
palavra que ela quer nas linhas de enderego. Como o enderego nao e um valor unico, como o clock , nao podemos 
mostra-lo como uma linha unica na figura; em vez disso, ele e mostrado como duas linhas que se cruzam no ins¬ 
tante em que o enderego muda. Alem disso, a area sombreada antes do cruzamento indica que o valor nessa area 
nao e importante. Usando essa mesma convengao, vemos que o conteudo das linhas de dados nao e significativo 
ate uma boa porgao de T3. 

Depois que as linhas de enderego tiverem uma chance de se acomodar a seus novos valores, mreq e rd sao 
ativados. O primeiro indica que e a memoria (e nao um dispositivo de E/S) que esta sendo acessada e o segun- 
do e ativado (valor 0) para leituras e negado (valor 1) para escritas. Uma vez que a memoria leva 15 ns apos o 
enderego estar estavel (a meio caminho no primeiro ciclo de clock), ela nao pode entregar os dados requisitados 
durante T 2 . Para dizer a CPU que nao os espere, a memoria ativa a linha wait no inlcio de T 2 . Essa agao ira inserir 
estados de espera (ciclos extras de barramento) ate que a memoria conclua e desative wait. Em nosso exemplo, 
foi inserido um estado de espera (T 2 ) porque a memoria e muito lenta. No inlcio de T 3 , quando esta certa de que 
tera os dados durante o ciclo corrente, a memoria nega wait. 

Durante a primeira metade de T3, a memoria coloca os dados nas linhas de dados. Na borda descendente de 
T 3 , a CPU mostra a linha de dados, isto e, le a linha, armazenando ( latching ) o valor em um registrador interno. 
Apos ter lido os dados, a CPU nega mreq e rd. Se for preciso, outro ciclo de memoria pode comegar na proxima 
borda ascendente do clock. Essa sequencia pode ser repetida indefinidamente. 
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Na especificagao temporal da Figura 3.38(b), esclarecemos melhor oito slmbolos que aparecem no diagrama. 
T A d, por exemplo, e o intervalo de tempo entre a borda ascendente do clock T\ e o estabelecimento das linhas de 
enderego. Conforme a especificagao de temporizagao, T AD < 4 ns. Isso significa que o fabricante da CPU garante 
que durante qualquer ciclo de leitura a CPU entregara o enderego a ser lido dentro de 4 ns a partir do ponto 
medio da borda ascendente de TV 


Figura 3.38 (a) Temporizacao de leitura em um barramento stncrono. (b) Especificacao de alguns tempos criticos. 
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(b) 


As especificagoes de temporizagao tambem requerem que os dados estejam disponlveis nas linhas de dados 
no mlnimo T DS (2 nanossegundos) antes da borda descendente de T 3 para lhes dar tempo para se acomodarem 
antes que a CPU os leia. A combinagao de restrigoes impostas a T AD e T DS significa que, na pior das hipoteses, a 
memoria tera somente 25-4-2 = 19 ns desde o instante em que o enderego aparece ate o instante em que ela 
deve produzir os dados. Como 10 ns e suficiente, ate mesmo no pior caso, uma memoria de 10 ns sempre pode 
responder durante T 3 . Uma memoria de 20 ns, entretanto, perderia o momento por pouco e teria de inserir um 
segundo estado de espera e responder durante T 4 . 
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A especificagao de temporizagao garante ainda mais que o enderego sera estabelecido pelo menos 2 nanos- 
segundos antes de mreq ser ativado. Esse tempo pode ser importante se mreq comandar a selegao de chip no chip 
de memoria, porque algumas memorias requerem um tempo de estabelecimento de enderego antes da selegao 
do chip. Claro que o projetista do sistema nao deve escolher um chip de memoria que necessite de um tempo de 
estabelecimento de 3 ns. 

As limitagoes impostas a T M e T RL significam que ambos, mreq e rd, serao ativados dentro de 3 ns a partir 
da borda descendente T\ do clock. No pior caso, o chip de memoria tera somente 10 + 10-3-2 = 15 ns apos a 
ativagao de mreq e rd para levar seus dados ate o barramento. Essa restrigao e adicional ao (e independente do) 
intervalo de 15 ns necessario apos o enderego estar estavel. 

T MH e T rh informam quanto tempo leva para mreq e rd serem negados apos a leitura dos dados. Por fim, T DH 
informa por quanto tempo a memoria deve sustentar os dados no barramento apos a negagao de rd. No que diz 
respeito a nosso exemplo de CPU, a memoria pode remover os dados do barramento tao logo rd tenha sido negado; 
porem, em algumas CPUs modernas, os dados devem ser conservados estaveis durante um pouco mais de tempo. 

Gostarlamos de destacar que a Figura 3.38 e uma versao muito simplificada das restrigoes reais de tempo. Na 
realidade, sempre sao especificados muitos mais tempos crlticos. Ainda assim, ela nos da uma boa ideia do modo 
de funcionamento de um barramento slncrono. 

Uma ultima coisa que vale a pena mencionar e que sinais de controle podem ser ativados baixos ou altos. 
Cabe aos projetistas do barramento determinar o que e mais conveniente, mas a escolha e, em essencia, arbitraria. 
Podemos entende-la como equivalente em hardware a decisao que o programador toma de representar blocos de 
discos livres em um mapa de bits como Os ou Is. 

• Barramentos assincronos 

Embora seja facil trabalhar com barramentos slncronos por causa de seus intervalos discretos de tempo, eles 
tambem tern alguns problemas. Por exemplo, tudo funciona como multiplos do clock do barramento. Ainda que 
CPU e memoria possam concluir uma transference em 3,1 ciclos, elas terao de prolongar o ciclo ate 4,0 porque 
ciclos fracionarios sao proibidos. 

Pior ainda, uma vez escolhido o ciclo do barramento e construldas placas de memoria e E/S para ele, e diflcil 
aproveitar futuros avangos da tecnologia. Por exemplo, suponha que alguns anos apos a construgao do sistema da 
Figura 3.38 sejam langadas novas memorias com tempos de acesso de 8 ns em vez de 15 ns, que eliminam o estado 
de espera e dao mais velocidade a maquina. Entao, suponha que sejam langadas memorias de 4 ns. Nao haveria 
nenhum ganho adicional de desempenho porque, com esse projeto, o tempo mlnimo para uma leitura e dois ciclos. 

Exprimindo esses fatos em termos um pouco diferentes, se um barramento slncrono tiver uma colegao hete- 
rogenea de dispositivos, alguns rapidos, alguns lentos, ele tern de ser ajustado para o mais lento, e os mais rapidos 
nao podem usar todo o seu potencial. 

Pode-se utilizar tecnologia mista passando para um barramento asslncrono, isto e, que nao tenha um clock 
mestre, como mostra a Figura 3.39. Em vez de vincular tudo ao clock , quando o mestre de barramento tiver ati¬ 
vado o enderego, mreq, rd e tudo o mais que precisa, em seguida ele ativa um sinal especial que denominaremos 
msyn (Master SYNchronization). Quando o escravo ve esse sinal, ele realiza o trabalho com a maior rapidez que 
puder e, ao concluir essa fase, ativa ssyn (Slave SYNchronization). 

Assim que o mestre perceber ssyn ativado, sabe que os dados estao disponlveis, portanto, ele os serializa e 
entao desativa as linhas de enderego, junto com mreq, rd e msyn. Quando o escravo percebe a negagao de msyn, 
sabe que o ciclo foi concluldo, portanto, nega ssyn, e voltamos a situagao original, com todos os sinais negados, 
esperando pelo proximo mestre. 

Diagramas temporais de barramentos assincronos (e as vezes tambem os de barramentos slncronos) usam 
setas para mostrar causa e efeito, como na Figura 3.39. A ativagao de msyn faz com que as linhas de dados sejam 
ativadas e tambem com que o escravo ative ssyn. A ativagao de ssyn, por sua vez, causa a negagao das linhas de 
enderego, mreq, rd e msyn. Por fim, a negagao de msyn causa a negagao e ssyn, que conclui a leitura e retorna o 
sistema a seu estado original. 
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Figura 3.39 Operacao de um barramento assmcrono. 



Um conjunto de sinais que se interligam dessa maneira e denominado operagao completa. A parte essencial 
consiste em quatro eventos: 

1. msyn e ativado. 

2. ssyn e ativado em resposta a msyn. 

3. msyn e negado em resposta a ssyn. 

4. ssyn e negado em resposta a negagao de msyn. 

E preciso que fique claro que operagoes completas sao independentes de temporizagao. Cada evento e causa- 
do por um evento anterior e nao por um pulso de clock. Se determinado par mestre-escravo for lento, nao afetara, 
de modo algum, um par mestre-escravo subsequente, que e muito mais rapido. 

Agora, a vantagem de um barramento assmcrono ja deve estar bem clara, mas a verdade e que a maioria 
dos barramentos e slncrona. A razao e que e mais facil construir um sistema slncrono. A CPU apenas ativa seus 
sinais e a memoria apenas reage. Nao ha realimentagao (causa e efeito), mas, se os componentes foram escolhidos 
adequadamente, tudo funcionara sem dependencia. Alem disso, ha muito dinheiro investido na tecnologia do 
barramento slncrono. 


3.4.5 Arbitragem de barramento 

Ate aqui ficou subentendido que ha somente um mestre de barramento, a CPU. Na realidade, chips de E/S 
tern de se tornar mestres de barramento para ler e escrever na memoria e tambem para causar interrupgoes. 
Coprocessadores tambem podem precisar se tornar mestres de barramento. Entao, surge a pergunta: “O que 
acontece se dois ou mais dispositivos quiserem se tornar mestres de barramento ao mesmo tempo?” A resposta e 
que e preciso algum mecanismo de arbitragem de barramento para evitar o caos. 

Mecanismos de arbitragem podem ser centralizados ou descentralizados. Em primeiro lugar, vamos consi- 
derar a arbitragem centralizada. Uma forma particularmente simples de arbitragem centralizada e mostrada na 
Figura 3.40(a). Nesse esquema, um unico arbitro de barramento determina quern entra em seguida. Muitas CPUs 
contem o arbitro no chip de CPU, mas as vezes e preciso um chip separado. O barramento contem uma unica 
linha de requisigao OR cabeada que pode ser afirmada por um ou mais dispositivos a qualquer tempo. Nao ha 
nenhum modo de o arbitro dizer quantos dispositivos requisitaram o barramento. As unicas categorias que ele 
pode distinguir sao algumas requisigoes e nenhuma requisigao. 

Quando o arbitro ve uma requisigao de barramento, emite uma concessao que ativa a linha de concessao 
de barramento. Essa linha esta ligada a todos os dispositivos de E/S em serie, como um cordao de lampadas de 
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arvore de Natal. Quando o dispositivo que esta fisicamente mais proximo do arbitro ve a concessao, verifica para 
confirmar se fez uma requisigao. Caso positivo, toma o barramento, mas nao passa a concessao adiante na linha. 
Se nao fez uma requisigao, ele propaga a concessao ate o proximo dispositivo na linha que se comporta da mesma 
maneira, e assim por diante, ate algum deles aceitar a concessao e tomar o barramento. Esse esquema e denomi- 
nado encadeamento em serie (daisy chaining ). Ele tern a propriedade de designar prioridades aos dispositivos 
dependendo da distancia entre eles e o arbitro. O que estiver mais proximo vence. 

Para contornar as prioridades impllcitas baseadas na distancia em relagao ao arbitro, muitos barramentos tern 
varios nlveis de prioridade. Para cada nivel de prioridade ha uma linha de requisigao e uma linha de concessao 
de barramento. O barramento da Figura 3.40(b) tern dois nlveis, 1 e 2 (barramentos reais costumam ter 4, 8 ou 
16 nlveis). Cada dispositivo esta ligado a um dos nlveis de requisigao do barramento, sendo que os mais crlticos 
em relagao ao tempo estao ligados aos nlveis com prioridade mais aha. Na Figura 3.40(b), os dispositivos 1, 2 e 
4 usam prioridade 1, enquanto os dispositivos 3 e 5 usam prioridade 2. 

Se varios nlveis de prioridade sao requisitados ao mesmo tempo, o arbitro emite uma concessao somente ao 
de prioridade mais aha. Entre os dispositivos da mesma prioridade, e usado o encadeamento em serie. Na Figura 
3.40(b), se ocorrer algum conflito, o dispositivo 2 vence o dispositivo 4, que vence o 3. O dispositivo 5 tern a 
menor prioridade porque esta no final da linha de encadeamento de menor prioridade. 


Figura 3.40 


(a) Arbitro de barramento centralizado de um nivel usando encadeamento em serie. (b) Mesmo arbitro, mas com dois niveis. 

Requisigao de barramento 



(a) 


Requisigao de barramento nivel 1 



(b) 


A proposito, tecnicamente nao e necessario ligar a linha de concessao de barramento de nivel 2 em serie 
passando pelos dispositivos 1 e 2, ja que eles nao podem fazer requisigoes nessa linha. Contudo, por conveniencia 
de execugao, e mais facil ligar todas as linhas de concessao passando por todos os dispositivos, em vez de fazer 
ligagoes especiais que dependem da prioridade de dispositivo. 

Alguns arbitros tern uma terceira linha que um dispositivo ativa quando aceita uma concessao e pega o barra¬ 
mento. Tao logo tenha ativado essa linha de reconhecimento, as linhas de requisigao e concessao podem ser nega- 
das. O resultado e que outros dispositivos podem requisitar barramento enquanto o primeiro o estiver usando. 
No instante em que a transference for conclulda, o proximo mestre de barramento ja tera sido selecionado. Ele 
pode comegar logo que a linha de reconhecimento tenha sido negada, quando entao pode ser iniciada a proxima 
rodada de arbitragem. Esse esquema requer uma linha de barramento extra e mais logica em cada dispositivo, 
mas faz melhor uso de ciclos de barramento. 
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Em sistemas em que a memoria esta no barramento principal, a CPU deve competir pelo barramento com 
todos os dispositivos de E/S em praticamente todos os ciclos. Uma solugao comum para essa situagao e dar a 
CPU a prioridade mais baixa, de modo que ela obtenha o barramento apenas quando ninguem mais o quiser. 
Nesse caso, a ideia e que a CPU sempre pode esperar, mas os dispositivos de E/S muitas vezes precisam adqui- 
rir logo o barramento ou entao perdem os dados que chegam. Discos que giram a alta velocidade nao podem 
esperar. Em muitos sistemas modernos de computadores, esse problema e evitado ao se colocar a memoria em 
um barramento separado dos dispositivos de E/S de modo que estes nao tenham de competir pelo acesso ao 
barramento. 

Tambem e posslvel haver arbitragem de barramento descentralizada. Por exemplo, um computador poderia 
ter 16 linhas de requisigao de barramento priorizadas. Quando um dispositivo quer usar o barramento, ele afirma 
sua linha de requisigao. Todos os dispositivos monitoram todas as linhas de requisigao, de modo que, ao final 
de cada ciclo de barramento, cada dispositivo sabe se foi o requisitante de prioridade mais alta e, portanto, se 
tern permissao de usar o barramento durante o proximo ciclo. Comparado a arbitragem centralizada, o metodo 
descentralizado requer mais linhas de barramento, mas evita o custo potencial do arbitro. Alem disso, limita o 
numero de dispositivos ao numero de linhas de requisigao. 

Outro tipo de arbitragem de barramento descentralizada, mostrado na Figura 3.41, usa apenas tres linhas, 
nao importando quantos dispositivos estiverem presentes. A primeira e uma linha OR cabeada para requisitar 
o barramento. A segunda e denominada busy e e ativada pelo mestre de barramento corrente. A terceira linha e 
usada para arbitrar o barramento. Ela esta ligada por encadeamento em serie a todos os dispositivos. O inlcio 
dessa cadeia e ativado ligando-o a uma fonte de alimentagao. 


Figura 3.41 Arbitragem de barramento descentralizada. 



Quando nenhum dispositivo quiser o barramento, a linha de arbitragem ativada e propagada por todos os 
outros. Para adquirir o barramento, um dispositivo primeiro verifica para ver se o barramento esta ocioso e se o 
sinal de arbitragem que esta recebendo, in (entrada), esta ativado. Se in estiver negado, o dispositivo em ques- 
tao nao pode se tornar o mestre de barramento e o sinal out (saida) e negado. Entretanto, se in for ativado, o 
dispositivo nega out, o que faz seu vizinho seguinte na cadeia ver in negado e negar seu proprio out. Dal, todos 
os dispositivos depois dele na cadeia veem in negado e, por sua vez, negam out. Quando o processo terminar, 
somente um dispositivo tera in ativado e out negado, e e ele que se torna o mestre de barramento, ativa busy e 
out e inicia sua transference. 

Um pouco de racioclnio revelara que o dispositivo mais a esquerda que quiser o barramento o obtem. Assim, 
esse esquema e similar a arbitragem original por encadeamento em serie, com a excegao de nao ter o arbitro. Por 
isso e mais barato, mais rapido e nao esta sujeito a falhas do arbitro. 

3.4.6 Operates de barramento 

Ate agora, discutimos apenas ciclos de barramento comuns, com um mestre (em geral, a CPU) lendo de um 
escravo (em geral, a memoria) ou escrevendo nele. Na verdade, existem varios outros tipos de ciclos de barra¬ 
mento. Em seguida, vamos estudar alguns deles. 
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Em geral, so uma palavra e transferida por vez. Contudo, quando e usado caching, e desejavel buscar uma 
linha inteira de cache (por exemplo, 8 palavras de 64 bits consecutivas) por vez. Transferences de blocos costu- 
mam ser mais eficientes do que transferences individuals sucessivas. Quando uma leitura de bloco e iniciada, o 
mestre de barramento informa ao escravo quantas palavras serao transferidas, por exemplo, colocando o nume- 
ro de palavras nas linhas de dados durante T 1 . Em vez de retornar apenas uma palavra, o escravo entrega uma 
durante cada ciclo ate esgotar aquele numero de palavras. A Figura 3.42 mostra uma versao modificada da Figura 
3.38(a), mas agora com um sinal extra, block, que e ativado para indicar que foi requisitada uma transference de 
bloco. Nesse exemplo, uma leitura de bloco de 4 palavras demora 6 ciclos em vez de 12. 


Figura 3.42 Transferencia de bloco. 



Ha tambem outros tipos de ciclos de barramento. Por exemplo, em um sistema multiprocessador com duas 
ou mais CPUs no mesmo barramento, muitas vezes e necessario garantir que so uma CPU por vez use alguma 
estrutura de dados crltica na memoria. Um modo tlpico de organizar isso e ter uma variavel na memoria que e 0 
quando nenhuma CPU estiver usando a estrutura de dados e 1 quando esta estiver em uso. Se uma CPU quiser 
obter acesso a estrutura de dados, deve ler a variavel e, se esta for 0, passa-la para 1. O problema e que, com um 
pouco de ma sorte, duas CPUs podem ler a variavel em ciclos de barramento consecutivos. Se cada uma perceber 
que a variavel e 0, entao cada uma passa a variavel para 1 e acha que e a unica CPU que esta usando a estrutura 
de dados. Essa sequencia de eventos leva ao caos. 

Para evitar essa situagao, sistemas multiprocessadores costumam ter um ciclo de barramento especial ler- 
-modificar-escrever que permite a qualquer CPU ler uma palavra da memoria, inspecionar e modificar essa pala¬ 
vra, e escreve-la novamente na memoria, tudo sem liberar o barramento. Esse tipo de ciclo evita que uma CPU 
rival possa usar o barramento e assim interferir com a operagao da primeira CPU. 

Outro tipo importante de ciclo de barramento e o usado para manipular interrupgoes. Quando ordena que 
um dispositivo de E/S faga algo, a CPU espera uma interrupgao quando o trabalho for concluldo. A sinalizagao 
da interrupgao requer o barramento. 

Uma vez que varios dispositivos podem querer causar uma interrupgao simultaneamente, os mesmos tipos 
de problemas de arbitragem que tivemos nos ciclos de barramento comuns tambem estao presentes aqui. A 
solugao normal e atribuir prioridades a dispositivos e usar um arbitro centralizado para dar prioridade aos dis¬ 
positivos mais crlticos em relagao ao tempo. Existem chips controladores de interrupgao padronizados que sao 
muito usados. Em PCs baseados em processador Intel, o chipset incorpora um controlador de interrupgao 8259A, 
ilustrado na Figura 3.43. 
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Figura 3.43 Utilizacao do controlador de interrupcao 8259A. 
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Ate oito controladores de E/S 8259A podem ser conectados direto as oito entradas irx (Interrupt Request - 
solicitagao de interrupgao) do 8259A. Quando qualquer um desses dispositivos quiser causar uma interrupgao, ele 
ativa sua linha de entrada. Quando uma ou mais entradas sao acionadas, o 8259A ativa int (INTerrupt - interrup¬ 
gao), que impulsiona diretamente o pino de interrupgao na CPU. Quando a CPU puder manipular a interrupgao, 
ela devolve o pulso ao 8259A por inta (INTerrupt Acknowledge - reconhecimento de interrupgao). Nesse ponto, 
o 8259A deve especificar qual entrada causou interrupgao passando o numero daquela entrada para o barramento 
de dados. Essa operagao requer um ciclo de barramento especial. Entao, o hardware da CPU usa esse numero 
para indexar em uma tabela de ponteiros, denominados vetores de interrupgao, para achar o enderego do proce- 
dimento a executar para atender a interrupgao. 

No interior do 8259A ha diversos registradores que a CPU pode ler e escrever usando ciclos de barramento 
comuns e os pinos rd (ReaD), wr (WRite), cs (Chip Select) e ao. Quando o software tiver tratado da interrupgao e 
estiver pronto para atender a seguinte, ele escreve um codigo especial em um dos registradores, que faz o 8259A 
negar INT, a menos que haja outra interrupgao pendente. Esses registradores tambem podem ser escritos para 
colocar o 8259A em um de varios modos, mascarar um conjunto de interrupgoes e habilitar outras caracterlsticas. 

Quando mais de oito dispositivos de E/S estiverem presentes, os 8259As podem funcionar em cascata. No 
caso mais extremo, todas as oito entradas podem ser conectadas as saldas de mais oito 8259As, permitindo ate 64 
dispositivos de E/S em uma rede de interrupgao de dois estagios. O hub controlador de E/S ICH10 da Intel, um dos 
chips no chipset Core i7, incorpora dois controladores de interrupgao 8259A. Isso da ao ICH10 15 interrupgoes 
externas, uma a menos que as 16 interrupgoes nos dois controladores 8259A, pois uma das interrupgoes e usada 
para a operagao em cascata do segundo 8259A para o primeiro. O 8259A tern alguns pinos dedicados a essa ope¬ 
ragao em cascata, que omitimos por questao de simplicidade. Hoje, o “8259A” e, na realidade, parte de outro chip. 

Embora nao tenhamos nem de perto esgotado a questao do projeto de barramento, o material que apresenta¬ 
mos ate aqui deve oferecer fundamento suficiente para entender os aspectos essenciais do modo de funcionamen- 
to de um barramento e da interagao entre CPUs e barramentos. Agora, vamos passar do geral para o especlfico e 
examinar alguns exemplos de CPUs reais e seus barramentos. 


3.5 Exemplo de chips de CPUs 

Nesta segao, vamos examinar com algum detalhe os chips Intel Core i7, TI OMAP4430 e Atmel ATmegal68 
no nivel de hardware. 


3.5.1 0 Intel Core i7 

O Core i7 e um descendente direto da CPU 8088 usada no IBM PC original. O primeiro Core i7 foi langado 
em novembro de 2008 como uma CPU de 731 milhoes de transistores de quatro processadores que funcionava 
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em 3,2 GHz com uma largura de linha de 45 nanometros. Largura da linha quer dizer a largura dos fios entre 
transistores, assim como uma medida do tamanho dos proprios transistores. Quanto menor a largura da linha, 
mais transis tores podem caber no chip. No fundo, a lei de Moore se refere a capacidade de os engenheiros de 
processo continuarem a reduzir as larguras das linhas. Para fins de comparagao, os fios de cabelo humano ficam 
na faixa de 20 mil a 100 mil nanometros de diametro, sendo o cabelo loiro mais fino do que o preto. 

A versao inicial da arquitetura Core i7 era baseada na arquitetura “Nahalem”; porem, as versoes mais 
novas sao montadas sobre a arquitetura “Sandy Bridge” mais recente. A arquitetura nesse contexto representa 
a organizagao interna da CPU, que costuma receber um codinome. Apesar de serem em geral pessoas serias, 
os arquitetos de computador as vezes aparecerao com codinomes muito inteligentes para seus projetos. Uma 
arquitetura digna de nota foi a serie K da AMD, projetada para quebrar a posigao aparentemente invulneravel 
da Intel no segmento de CPU para desktop. O codinome dos processadores da serie K foi “Kryptonite”, uma 
referenda a unica substancia capaz de ferir o Super-homem, e um golpe inteligente na dominante Intel. 

O novo Core i7 baseado na Sandy Bridge evoluiu para ter 1,16 bilhao de transistores e trabalha em veloci- 
dades de ate 3,5 GHz, com larguras de linha de 32 nanometros. Embora o Core i7 esteja longe do 8088 com 29 
mil transistores, ele e totalmente compatlvel com o 8088 e pode rodar sem modificagao os programas binarios do 
8088 (sem falar tambem nos programas para todos os processadores intermediaries). 

Do ponto de vista de software, o Core i7 e uma maquina completa de 64 bits. Tern todas as mesmas carac- 
terlsticas ISA de nivel de usuario que os chips 80386, 80486, Pentium, Pentium II, Pentium Pro, Pentium III e 
Pentium 4, inclusive os mesmos registradores, as mesmas instrugoes e uma execugao completa no chip do padrao 
IEEE 754 de ponto flutuante. Alem disso, tern algumas novas instrugoes destinadas principalmente a operagoes 
criptograficas. 

O processador Core i7 e uma CPU multicore (de multiplos nucleos), de modo que o substrato de sillcio 
contem varios processadores. A CPU e vendida com um numero variavel de processadores, que vai de 2 a 6, 
com outras configuragoes planejadas para o futuro proximo. Se os programadores escreverem um programa 
paralelo, usando threads e locks , e posslvel obter ganhos significativos na velocidade do programa, explorando 
o paralelismo nos multiplos processadores. Alem disso, as CPUs individual sao “hyperthreaded” , de modo que 
varias threads de hardware podem estar ativas simultaneamente. O hyperthreading (normalmente denominado 
“multithreading simultaneo” pelos arquitetos de computador) permite que latencias muito curtas, como faltas 
de cache , sejam toleradas com trocas de thread de hardware. O threading baseado no software so pode tolerar 
latencias muito longas, como faltas de pagina, devido as centenas de ciclos necessarias para executar as trocas de 
threads baseadas em software. 

Em sua parte interna, no nivel da microarquitetura, o Core i7 e um projeto bastante capaz. Ele e baseado na 
arquitetura de seus predecessores, o Core 2 e Core 2 Due. O processador Core i7 pode executar ate quatro ins¬ 
trugoes ao mesmo tempo, tornando-o uma maquina superescalar de largura 4. Examinaremos a microarquitetura 
no Capitulo 4. 

Todos os processadores Core i7 tern tres niveis de cache. Cada processador em um processador Core i7 tern 
uma cache de dados de nivel 1 (LI) com 32 KB e uma de instrugoes de nivel 1 com 32 KB. Cada nucleo tambem 
tern sua propria cache de nivel 2 (L2) com 256 KB. A cache de segundo nivel e unificada, significando que pode 
ter uma mistura de instrugoes e dados. Todos os nucleos compartilham uma so cache unificada de nivel 3 (L3), 
cujo tamanho varia de 4 a 15 MB, dependendo do modelo de processador. Ter tres niveis de cache melhora sig- 
nificativamente o desempenho do processador, mas com um grande custo na area de silicio, pois as CPUs Core 
i7 podem ter ate 17 MB de cache total em um unico substrato de silicio. 

Vis to que todos os chips Core i7 tern multiplos processadores com caches de dados privadas, surge um pro- 
blema quando uma CPU modifica uma palavra na cache privada que esteja contida na de outro processador. Se o 
outro processador tentar ler aquela palavra da memoria, obtera um valor ultrapassado, ja que palavras de cache 
modificadas nao sao escritas de imediato de volta na memoria. Para manter a consistencia da memoria, cada CPU 
em um sistema microprocessador escuta ( snoops ) o barramento de memoria em busca de referencias de palavras 
que tenha em cache. Quando ve uma dessas referencias, ela se apressa em fornecer os dados requisitados antes que 
a memoria tenha chance de faze-lo. Estudaremos a escuta ( snooping ) no Capitulo 8. 
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Dois barramentos externos principals sao usados nos sistemas Core i7, ambos slncronos. Um barramento 
de memoria DDR3 e usado para acessar a DRAM de memoria principal, e um barramento PCI Express conecta o 
processador a dispositivos de E/S. Versoes avangadas do Core i7 incluem memoria multipla e barramentos PCI 
Express, e elas tambem incluem uma porta Quick Path Interconnect (QPI). A porta QPI conecta o processador 
a uma interconexao multiprocessadora externa, permitindo a montagem de sistemas com mais de seis proces- 
sadores. A porta QPI envia e recebe requisites de coerencia de cache , mais uma serie de outras mensagens de 
gerenciamento de multiprocessador, como interrupgoes interprocessador. 

Um problema com o Core i7, bem como com a maioria das outras CPUs modernas do tipo desktop, e a energia 
que consome e o calor que gera. Para impedir danos ao sillcio, o calor deve ser afastado do substrato do processador 
logo apos ser produzido. O Core i7 consome entre 17 e 150 watts, dependendo da frequencia e do modelo. Por 
consequencia, a Intel esta sempre buscando meios de controlar o calor produzido por seus chips de CPU. As 
tecnologias de resfriamento e os dissipadores de calor sao vitais para evitar que o sillcio se queime. 

O Core i7 vem em um pacote LGA quadrado com 37,5 mm de borda. Ele contem 1.155 pinos na parte infe¬ 
rior, dos quais 286 sao para alimentagao e 360 sao aterramento, para reduzir o ruldo. Os pinos sao arrumados 
mais ou menos como um quadrado de 40 x 40, com os 17 x 25 do meio faltando. Alem disso, 20 outros pinos 
estao faltando no perlmetro em um padrao assimetrico, para impedir que o chip seja inserido incorretamente em 
sua base. A disposigao flsica dos pinos aparece na Figura 3.44. 


Figura 3.44 



O chip e equipado com uma placa de montagem para um dissipador distribuir o calor e um ventilador para 
resfria-lo. Para ter uma ideia do tamanho do problema da potencia, ligue uma lampada incandescente de 150 
watts, deixe-a aquecer e depois coloque suas maos ao seu redor (mas nao a toque). Essa quantidade de calor deve 
ser dissipada continuamente por um processador Core i7 de ultima geragao. Em consequencia, quando o Core 
i7 nao tiver mais utilidade como uma CPU, ele sempre podera ser usado como um fogareiro em acampamentos. 

De acordo com as leis da flsica, qualquer coisa que emita muito calor deve absorver muita energia. Nao e 
interessante usar muita energia em um computador portatil com carga de bateria limitada porque a bateria se 
esgota rapidamente. Para resolver essa questao, a Intel oferece um meio de por a CPU para dormir quando ela 
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estiver ociosa e de faze-la cair em sono profundo quando e provavel que fique adormecida durante algum tempo. 
Ha cinco estados oferecidos, que vao de totalmente ativa a sono profundo. Nos estados intermediaries sao habi- 
litadas algumas funcionalidades (tal como escuta de cache e manipulagao de interrupgao), mas outras fungoes 
sao desativadas. Quando em estado de sono profundo, os valores de registradores sao preservados, mas as caches sao 
esvaziadas e desligadas. Nesse estado, e preciso que haja um sinal de hardware para desperta-la. Ainda nao sabe- 
mos se um Core i7 pode sonhar quando esta em sono profundo. 

• Pinagem logica do Core i7 

Os 1.155 pinos do Core i7 sao usados para 447 sinais, 286 conexoes de energia eletrica (em diversas volta- 
gens diferentes), 360 terras e 62 reservados para uso futuro. Alguns dos sinais logicos usam dois ou mais pinos 
(tal como o enderego de memoria requisitado), de modo que ha somente 131 sinais diferentes. Uma pinagem 
logica um pouco simplificada e dada na Figura 3.45. No lado esquerdo da figura, ha cinco grupos principais de 
sinais de barramento; no lado direito, ha diversos sinais variados. 


Figura 3.45 


Pinagem logica do Core i7. 
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Vamos examinar os sinais, comegando com os do barramento. Os dois primeiros sinais sao usados para a 
interface com DRAM compatlvel com DDR3. Esse grupo oferece enderego, dados, controle e clock ao banco de 
DRAMs. O Core i7 admite dois canais DRAM DDR3 independentes, rodando com um clock de barramento de 666 
MHz que transfere nas duas bordas, para permitir 1.333 milhoes de transagoes por segundo. A interface DDR3 
tern 64 bits de largura, e assim, as duas interfaces DDR3 trabalham em sequencia para dar aos programas com 
muita utilizagao de memoria ate 20 gigabytes de dados a cada segundo. 

O terceiro grupo do barramento e a interface PCI Express, que e usada para conectar perifericos diretamente 
a CPU Core i7. A interface PCI Express e uma interface serial de alta velocidade, com cada enlace serial unico 
formando uma “via” de comunicagao com os perifericos. O enlace do Core i7 e uma interface xl6, significando 
que pode utilizar 16 vias simultaneamente para uma largura de banda agregada de 16 GB/s. Apesar de ser um 
canal serial, um rico conjunto de comandos trafega pelos enlaces PCI Express, incluindo comandos de leituras 
de dispositivo, escrita, interrupgao e configuragao. 

O grupo seguinte e a Direct Media Interface (DMI), que e usada para conectar a CPU do Core i7 ao seu chip- 
set correspondente. A interface DMI e semelhante a interface PCI Express, embora trabalhe com cerca de metade 
da velocidade, pois quatro vias podem fornecer apenas taxas de transference de dados de ate 2,5 GB por segundo. 
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O chipset de uma CPU contem um rico conjunto de suporte para interface de periferico adicional, exigido para 
sistemas de mais alto nlvel, com muitos dispositivos de E/S. O chipset do Core i7 e composto dos chips P67 e 
ICH10. O chip P67 e o canivete sulgo dos chips, oferecendo interfaces SATA, USB, Audio, PCIe e memoria flash. 
O chip ICH10 oferece suporte para interface legada, incluindo uma interface PCI e a funcionalidade de contro- 
le de interrupgao do 8259A. Alem disso, o ICH10 contem alguns outros circuitos, como clocks de tempo real, 
temporizadores de eventos e controladores de acesso direto a memoria (DMA). Ter chips como esses simplifica 
bastante a construgao de um PC completo. 

O Core i7 pode ser configurado para usar interrupgoes do mesmo modo que o 8088 (para fins de compati- 
bilidade) ou tambem pode usar um novo sistema de interrupgao que utiliza um dispositivo denominado APIC 
(Advanced Programmable Interrupt Controller - controlador de interrupgao programavel avangado). 

O Core i7 pode funcionar em quaisquer de varias tensoes predefinidas, mas tern de saber qual delas. Os sinais 
de gerenciamento de energia sao usados para selegao automatica de tensao da fonte de alimentagao, para informar 
a CPU que a energia esta estavel e outros assuntos relacionados com a energia. O controle dos varios estados de 
sono tambem e feito aqui, ja que o sono acontece por razoes de gerenciamento de energia. 

A despeito de seu sofisticado gerenciamento de energia, o Core i7 pode ficar muito quente. Para proteger o 
sillcio, cada processador Core i7 contem varios sensores de calor internos, que detectam quando o chip esta para 
superaquecer. O grupo de monitoramento termico trata do gerenciamento termico, permitindo que a CPU indi- 
que a seu ambiente que esta em risco de superaquecimento. Um dos pinos e ativado pela CPU caso a temperatura 
atinja 130 °C (266°F). Se uma CPU alguma vez atingir essa temperatura, provavelmente estara sonhando com sua 
aposentadoria e posterior transformagao em fogareiro de acampamento. 

Ate mesmo em temperaturas de fogareiro de acampamento voce nao precisa se preocupar com a seguranga 
do Core i7. Se os sensores internos detectarem que o processador esta para superaquecer, ele iniciara o estrangu- 
lamento termico, uma tecnica que logo reduz a geragao de calor, usando o processador apenas a cada N-esimo 
ciclo de clock. Quanto maior o valor de N, mais o processador e estrangulado, e mais rapido ele se resfriara. E 
claro que o custo desse estrangulamento e uma diminuigao no desempenho do sistema. Antes da invengao do 
estrangulamento termico, as CPUs se queimavam se seu sistema de resfriamento falhasse. A evidencia desses tem¬ 
pos negros do gerenciamento termico da CPU pode ser achada procurando-se por “ exploding CPU ” no YouTube. 
O video e falso, mas o problema nao. 

O sinal Clock fornece o clock do sistema ao processador, que internamente e usado para gerar uma variedade 
de clocks com base em um multiplo ou fragao do clock do sistema. Sim, e posslvel gerar um multiplo da frequencia de 
clock, usando um dispositivo muito inteligente, chamado de delay-locked loop, ou DLL. 

O grupo Diagnosticos contem sinais para testar e depurar sistemas em conformidade com o padrao de testes 
IEEE 1149.1 JTAG (Joint Test Action Group). Finalmente, o grupo Diversos e uma miscelanea de outros sinais 
que possuem diversas finalidades especiais. 

• Paralelismo no barramento de memoria do DDR3 do Core i7 

CPUs modernas como o Core i7 colocam grandes demandas sobre as memorias DRAM. Os processadores 
individual podem criar requisigoes de acesso muito mais depressa do que uma DRAM lenta consegue produzir 
valores, e esse problema e aumentado quando varios processadores estao fazendo requisigoes simultaneas. Para 
evitar que as CPUs morram por falta de dados, e essencial conseguir o maximo de vazao posslvel da memoria. Por 
esse motivo, o barramento de memoria DDR3 do Core i7 pode ser operado de uma forma paralela, com ate quatro 
transagoes de memoria simultaneas ocorrendo ao mesmo tempo. Vimos o conceito de paralelismo (ou pipelining ) 
no Capltulo 2, no contexto de uma CPU em paralelo (ver Figura 2.4), mas as memorias tambem podem trabalhar 
com paralelismo. 

Para permitir o paralelismo, as requisigoes a memoria do Core i7 tern tres etapas: 

1. A fase ACTIVATE da memoria, que “abre” uma linha de memoria DRAM, aprontando-a para acessos 
subsequentes a memoria. 
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2. A fase READ ou WRITE da memoria, na qual varios acessos podem ser feitos a palavras individuals 
dentro da linha DRAM aberta ou a varias palavras sequenciais dentro da linha de DRAM atual, usando 
um modo de rajada. 

3. A fase PRECHARGE, que “fecha” a linha de memoria DRAM atual e prepara a memoria DRAM para o 
proximo comando ACTIVATE. 


O segredo do barramento de memoria com paralelismo do Core i7 e que as DRAMs DDR3 sao organizadas 
com varios bancos dentro do chip de DRAM. Um banco e um bloco de memoria DRAM, que pode ser acessa- 
do em paralelo com outros bancos de memoria DRAM, mesmo que estejam contidos no mesmo chip. Um chip 
DRAM DDR3 tlpico tera ate 8 bancos de DRAM. Porem, a especificagao de interface DDR3 permite apenas ate 
quatro acessos simultaneos sobre um unico canal DDR3. O diagrama de temporizagao da Figura 3.46 ilustra o 
Core i7 fazendo 4 acessos a memoria para tres bancos de DRAM distintos. Os acessos sao totalmente sobrepostos, 
de modo que as leituras de DRAM ocorrem em paralelo dentro do chip de DRAM. Com setas no diagrama de 
temporizagao, a figura mostra quais comandos levam a outras operagoes. 


Figura 3.46 Requisites de memoria com paralelismo na interface DDR3 do Core \ 1 . 
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Como vemos na Figura 3.46, a interface de memoria DDR3 tern quatro caminhos de sinal principais: clock de 
barramento (CK), comando de barramento (CMD), enderego (ADDR) e dados (DATA). O sinal CK de clock 
de barramento orquestra toda a atividade deste. O comando de barramento CMD indica qual atividade e requi- 
sitada da DRAM de conexao. O comando ACTIVATE especifica o enderego de linha de DRAM a ser aberta por 
meio do sinal ADDR. Quando um READ e executado, o enderego de coluna da DRAM e dado por meio de sinais 
ADDR, e a DRAM produz o valor de leitura apos um tempo fixo sobre os sinais DATA. Por fim, o comando 
PRECHARGE indica ao banco para pre-carregar por meio dos sinais ADDR. Para a finalidade do exemplo, o 
comando ACTIVATE devera preceder o primeiro READ para o mesmo banco por dois ciclos de barramento 
DDR3, e os dados sao produzidos um ciclo apos o comando READ. Alem disso, a operagao PRECHARGE devera 
ocorrer pelo menos dois ciclos de barramento apos a ultima operagao READ para o mesmo banco de DRAM. 

O paralelismo nas requisigoes de memoria pode ser visto na sobreposigao das requisigoes de READ para os 
diferentes bancos de DRAM. Os dois primeiros acessos READ aos bancos 0 e 1 sao completamente superpostos, pro- 
duzindo resultados nos ciclos de barramento 3 e 4, respectivamente. O acesso ao banco 2 e em parte superposto ao 
primeiro acesso do banco 1, e por fim a segunda leitura do banco 0 e parcialmente superposta ao acesso ao banco 2. 
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Voce pode estar questionando como o Core i7 sabe quando os dados do comando READ retornarao e quando 
ele pode fazer uma nova requisigao a memoria. A resposta e que ele sabe quando receber e iniciar requisites 
porque modela totalmente as atividades internas de cada DRAM DDR3 conectada. Assim, ele antecipara o retorno 
dos dados no ciclo correto e sabera evitar o inlcio de uma operagao de pre-carga antes que se passem dois ciclos 
de sua ultima operagao de leitura. O Core i7 pode antecipar todas essas atividades porque a interface de memoria 
DDR3 e uma interface de memoria slncrona. Assim, todas as atividades usam um numero bem conhecido de 
ciclos de barramento DDR3. Mesmo com todo esse conhecimento, a criagao de uma interface de memoria DDR3 
com paralelismo completo e com alto desempenho e uma tarefa longe de ser trivial, exigindo muitos temporiza- 
dores internos e detectores de conflito para realizar o tratamento eficaz da requisigao de DRAM. 

3.5.2 0 sistema-em-um-chip Texas Instruments 0MAP4430 

Como nosso segundo exemplo de um chip de CPU, examinaremos agora o sistema-em-um-chip Texas 
Instruments (TI) OMAP4430. O OMAP4430 realiza o conjunto de instrugoes ARM e e voltado para aplicagoes 
moveis e embutidas, como smartphones, tablets e dispositivos da Internet. Com um nome apropriado, um 
sistema-em-um-chip incorpora uma grande variedade de dispositivos, de modo que, combinado com perifericos 
flsicos (tela senslvel ao toque, memoria flash etc.), ele executa um dispositivo de computagao completo. 

O sistema OMAP4430 inclui dois nucleos ARM A9, aceleradores adicionais e uma grande gama de inter¬ 
faces perifericas. A organizagao interna do OMAP4430 aparece na Figura 3.47. Os nucleos ARM A9 sao micro- 
arquiteturas superescalares de largura 2. Alem disso, existem mais tres processadores aceleradores no substrato 
OMAP4430: o processador grafico POWERVR SGX540, um processador de sinal de imagem (ISP) e um processa- 
dor de video IVA3. O SGX540 oferece uma renderizagao 3D programavel eficaz, semelhante as GPUs encontradas 
em PCs desktop, apesar de menores e mais lentas. O ISP e um processador programavel projetado para manipula- 
gao eficiente da imagem, para o tipo de operagoes que seriam exigidas em uma camera digital avangada. O IVA3 
executa codificagao e decodificagao eficientes de video, com desempenho suficiente para dar suporte a aplicagoes 
3D, como as encontradas em consoles de jogos portateis. Ha tambem no sistema OMAP4430 uma gama de inter¬ 
faces perifericas, incluindo uma tela senslvel ao toque e controladores de teclado, DRAM e interfaces flash, USB 
e HDMI. A Texas Instruments detalhou um roteiro para a serie OMAP de CPUs. Projetos futuros terao mais de 
tudo - mais nucleos ARM, mais GPUs e mais perifericos diversos. 


Figura 3.47 


Organizacao interna do sistema-em-um-chip 0MAP4430. 
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O sistema OMAP4430 foi langado no inlcio de 2011 com dois nucleos ARM A9 rodando a 1 GHz usando 
uma implementagao de sillcio de 45 nanometros. Um aspecto chave do projeto do OMAP4430 e que ele realiza 
quantidades significativas de calculo com muito pouca potencia, pois e visado para aplicagoes moveis, alimenta- 
das por uma bateria. Em tais aplicagoes, quanto mais eficiente for a operagao do projeto, mais tempo o usuario 
podera ficar sem carregar a bateria. 

Os muitos processadores do OMAP4430 sao incorporados para dar suporte a missao de operagao com baixa 
potencia. O processador grafico, ISP, e o IVA3 sao todos aceleradores programaveis que fornecem capacidades de 
calculo eficientes com significativamente menos energia em comparagao com as mesmas tarefas sendo executadas 
apenas nas CPUs ARM A9. Totalmente alimentado, o sistema IMAP4430 consome apenas 600 mW de potencia. 
Em comparagao com o Core i7 avangado, o OMAP4430 usa cerca de 1/250 de sua potencia. O OMAP4430 tam- 
bem executa um modo de sono muito eficaz; quando todos os componentes estao dormindo, o projeto consome 
somente 100 pW. Modos de sono eficientes sao fundamental para aplicagoes moveis com longos perlodos de 
tempo de standby, como um telefone celular. Quanto menos energia usada no modo de sono, mais tempo o tele- 
fone celular durara no modo standby. 

Para reduzir ainda mais as demandas de potencia do OMAP4430, o projeto incorpora uma serie de facilida- 
des de gerenciamento de energia, incluindo a escalada dinamica de tensao e o chaveamento de energia. A escala- 
da dinamica de tensao permite que os componentes sejam executados mais devagar em uma tensao inferior, o que 
reduz bastante os requisitos de potencia. Se voce nao precisa da velocidade de computagao mais ardente da CPU, 
a tensao do projeto pode ser reduzida para que a CPU trabalhe em uma velocidade mais lenta e muita energia 
sera economizada. O chaveamento de energia e uma tecnica de gerenciamento ainda mais agressiva, na qual um 
componente e desligado por completo quando nao estiver em uso, eliminando assim seu consumo de energia. 
Por exemplo, em uma aplicagao de tablet, se o usuario nao estiver assistindo a um filme, o processador de video 
IVA3 e completamente desligado e nao consome energia. Por outro lado, quando o usuario esta assistindo a um 
filme, o processador de video IVA3 trabalha ao maximo em suas tarefas de decodificagao de video, enquanto as 
duas CPUs ARM A9 estao dormindo. 

Apesar de sua tendencia para uma operagao com economia de energia, os nucleos ARM A9 utilizam uma 
microarquitetura bastante capaz. Eles podem decodificar e executar ate duas instrugoes a cada ciclo. Conforme 
aprenderemos no Capitulo 4, essa taxa de execugao representa a vazao maxima da microarquitetura. Mas nao 
espere que ela execute suas muitas instrugoes a cada ciclo. Em vez disso, pense nessa taxa como o desempenho 
maximo garantido pelo fabricante, um nivel que o processador nunca excedera, nao importa o que acontega. Em 
muitos ciclos, menos de duas instrugoes serao executadas devido aos milhares de “ hazards ” (acasos) que podem 
adiar as instrugoes, levando a uma vazao de execugao mais baixa. Para resolver muitos desses limitadores de 
vazao, o ARM A9 incorpora um poderoso previsor de desvio, escalonamento de instrugoes fora de ordem e um 
sistema de memoria altamente otimizado. 

O sistema de memoria do OMAP4430 tern duas caches LI internas principais para cada processador ARM 
A9: uma de 32 KB para instrugoes e uma de 32 KB para dados. Assim como o Core i7, ele tambem usa uma 
cache nivel 2 (L2) no chip, mas, diferente do Core i7, ela e uma memoria de 1 MB relativamente pequena em 
tamanho, sendo compartilhada por ambos os nucleos ARM A9. As caches sao alimentadas com canais de DRAM 
duais LPDDR2 de baixa potencia. LPDDR2 e derivada do padrao de interface de memoria DDR2, porem alterada 
para exigir menos fios e operar em tensoes mais eficientes em termos de potencia. Alem disso, o controlador de 
memoria incorpora uma serie de otimizagoes de acesso a memoria, como a pre-busca de memoria ladrilhada e o 
suporte para rotagao na memoria. 

Vamos discutir caching em detalhes no Capitulo 4, mas e bom dizer algumas palavras sobre ela aqui. Toda 
memoria principal e dividida em linhas (blocos) de cache de 32 bytes. As 1.024 linhas de instrugao mais usadas 
e as 1.024 linhas de dados mais usadas estao na cache de nivel 1. Linhas de cache que sao muito usadas mas 
nao cabem na de nivel 1 sao mantidas na de nivel 2. Essa cache contem linhas de dados e linhas de instrugao de 
ambas as CPUs ARM A9 misturadas aleatoriamente. A cache de nivel 2 contem as 32.768 linhas acessadas mais 
recentemente na memoria principal. 
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Quando ha uma ausencia na cache de nlvel 1, a CPU envia o identificador da linha que esta procurando 
(enderego de tag ) para a cache de nlvel 2. A resposta (dados de tag) informa a CPU se a linha esta ou nao na cache 
de nivel 2 e, se estiver, informa tambem o estado em que esta se encontra. Se a linha estiver na cache , a CPU vai 
pega-la. Para obter um valor da cache de nivel 2, sao necessarios 19 ciclos. Esse e um longo tempo para esperar os 
dados, de modo que programadores inteligentes otimizarao seus programas para usar menos dados, aumentando 
a probabilidade de achar os dados na cache rapida de nlvel 1. 

Se a linha de cache nao estiver na cache de nivel 2, ela deve ser buscada da memoria principal por meio da 
interface de memoria LPDDR2. A interface LPDDR2 do OMAP4430 e executada no chip de modo que a DRAM 
LPDDR2 possa ser conectada diretamente ao OMAP4430. Para acessar a memoria, a CPU primeiro deve enviar 
a parte superior do enderego da DRAM ao chip de DRAM, usando as 13 linhas de enderego. Essa operagao, cha- 
mada ACTIVATE , carrega uma linha inteira de memoria da DRAM para um buffer de linha. Depois disso, a CPU 
pode emitir varios comandos read ou write, enviando o restante do enderego nas mesmas 13 linhas de enderego 
e enviando (ou recebendo) os dados para a operagao nas 32 linhas de dados. 

Enquanto espera os resultados, a CPU pode perfeitamente continuar executando outro trabalho. Por exem- 
plo, uma ausencia na cache durante a busca antecipada de uma instrugao nao inibe a execugao de uma ou mais 
instrugoes ja buscadas, cada uma das quais pode se referir a dados que nao estao em quaisquer das caches. Assim, 
varias transagoes com as mesmas interfaces LPDDR2 podem estar pendentes ao mesmo tempo, ate para o mesmo 
processador. Cabe ao controlador de memoria monitorar tudo isso e fazer requisigoes de memoria propriamente 
ditas na ordem mais eficiente. 

Quando os dados por fim chegam da memoria, podem vir em 4 bytes por vez. Uma operagao de memoria pode 
utilizar uma leitura ou escrita no modo rajada, permitindo que varios enderegos contiguos dentro da mesma linha 
da DRAM sejam lidos ou escritos. Esse modo e particularmente eficaz para ler ou escrever blocos de cache. Apenas 
por registro, a descrigao do OMAP4430 dada aqui, como a do Core i7 antes dele, foi bastante simplificada, mas a 
essencia de sua operagao foi descrita. 

O OMAP4430 vem em uma matriz em grade de bola (PBGA) de 547 pinos, conforme mostra a Figura 3.48. 
Uma matriz em grade de bola e semelhante a uma matriz de grade de terra, exceto que as conexoes no chip sao 
pequenas bolas de metal, em vez de plataformas quadradas usadas na LGA. Os dois pacotes nao sao compativeis, 
oferecendo mais evidencia de que voce nao pode encaixar uma ponta quadrada em um furo redondo. O pacote 
do OMAP4430 consiste em uma matriz retangular de 28 x 26 bolas, com os dois aneis de bolas mais internos 
faltando, e mais duas meias linhas e colunas assimetricas de bolas faltando, para impedir que o chip seja inserido 
incorretamente no soquete BGA. 


Figura 3.48 A pinagem sistema-em-um-chip 0MAP4430. 
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E diflcil comparar um chip CISC (como o Core i7) e um chip RISC (como o OMAP4430) apenas com 
base na velocidade do clock. Por exemplo, os dois nucleos ARM A9 no OMAP4430 tem uma velocidade 
maxima de execugao de quatro instrugoes por ciclo de clock , dando-lhe quase a mesma taxa de execugao dos 
processadores superescalares de largura 4 do Core i7. Entretanto, o Core i7 alcanga execugao de programa 
mais rapida, pois tem ate seis processadores rodando com uma velocidade de clock 3,5 vezes mais rapida 
(3,5 GHz) que o OMAP4430. O OMAP4430 pode parecer uma tartaruga correndo ao lado da lebre do Core 
i7, mas a tartaruga usa muito menos potencia, e pode terminar primeiro, ainda mais se a bateria da lebre 
nao for muito grande. 

3.5.3 0 microcontrolador Atmel ATmegal 68 

Tanto o Core i7 quanto a OMAP4430 sao exemplos de CPUs de alto desempenho projetadas para construir 
dispositivos de computagao altamente eficazes, com o Core i7 voltado para aplicagoes de desktop enquanto o 
OMAP4430 e voltado para aplicagoes moveis. Quando pensam em computadores, sao esses os tipos de sistemas 
que muitas pessoas tem em mente. Entretanto, existe todo outro universo de computadores que na verdade e 
muito maior: sistemas embutidos. Nesta segao, vamos examinar brevemente esse outro universo. 

Talvez nao seja um grande exagero dizer que todo equipamento eletrico que custe mais de 100 dolares tem 
um computador dentro dele. Hoje, e certo que televisores, telefones celulares, agendas eletronicas, fornos de 
micro-ondas, filmadoras, aparelhos de DVD, impressoras a laser, alarmes antifurto, aparelhos de surdez, jogos 
eletronicos e outros incontaveis dispositivos sao todos controlados por computador. Os computadores que estao 
dentro desses aparelhos costumam ser otimizados para baixo prego e nao para alto desempenho, o que provoca 
compromissos diferentes dos feitos para CPUs de tecnologia avangada que estudamos ate aqui. 

Como mencionamos no Capitulo 1, o Atmel ATmegal68 provavelmente e o microcontrolador mais popular 
em uso hoje, em grande parte por causa de seu custo muito baixo (cerca de 1 dolar). Como veremos em breve, ele 
tambem e um chip versatil, portanto, fazer interface com ele e algo simples e barato. Agora, vamos examinar esse 
chip, cuja pinagem flsica e mostrada na Figura 3.49. 


Figura 3.49 


Pinagem ffsica do ATmegal 68. 
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Como podemos ver na figura, o ATmegal68 normalmente vem em um pacote padrao de 28 pinos, embo- 
ra haja outros pacotes disponlveis. A primeira vista, voce talvez tenha notado que a pinagem nesse chip e um 
pouco estranha em comparagao com os dois projetos anteriores que examinamos. Em particular, esse chip nao 
tem linhas de enderego e dados. Isso porque nao foi projetado para ser conectado a memoria, so a dispositivos. 
Toda a memoria, SRAM e flash, esta contida dentro do processador, evitando a necessidade de quaisquer pinos 
de enderego e dados, como mostra a Figura 3.50. 
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Figura 3.50 Arquitetura interna e pinagem logica do ATmegal 68. 
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Em vez de pinos de enderego e dados, o ATmegal68 tern 27 portas de E/S digitais, 8 linhas na porta B e D, 
e 7 linhas na porta C. Essas linhas de E/S digitais sao projetadas para serem conectadas aos perifericos de E/S, e 
cada uma pode ser configurada internamente pelo software de partida para ser uma entrada ou uma salda. Por 
exemplo, quando usada em um forno de micro-ondas, uma linha de E/S digital seria uma entrada do sensor de 
“porta aberta”. Outra linha de E/S digital seria uma salda usada para ligar e desligar o gerador do micro-ondas. O 
software no ATmegal68 verificaria se a porta estava fechada antes de ligar o gerador do micro-ondas. Se a porta 
de repente for aberta, o software devera cortar a energia. Na pratica, as interconexoes de hardware tambem estao 
sempre presentes. 
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Como opgao, seis das entradas da porta C podem ser configuradas para serem E/S analogica. Pinos de E/S 
analogica podem ler o nivel de tensao de uma entrada ou definir o nivel de tensao de uma salda. Estendendo 
nosso exemplo de forno de micro-ondas, alguns aparelhos tern um sensor que permite ao usuario aquecer 
o alimento ate determinada temperatura. O sensor de temperatura seria conectado a uma entrada de porta 
C, e o software poderia ler a tensao do sensor e depois converte-la em uma temperatura usando uma fungao de 
tradugao especlfica do sensor. Os pinos restantes no ATmegal68 sao a entrada de tensao (vcc), dois pinos de terra 
(gnd) e dois pinos para configurar os circuitos de E/S analogica (aref, avcc). 

A arquitetura interna do ATmegal68, como a do OMAP4430, e um sistema-em-um-chip com uma rica 
matriz de dispositivos internos e memoria. O ATmegal68 vem com ate 16 KB de memoria flash interna, para 
armazenamento de informagoes nao volateis que mudam com pouca frequencia, como instrugoes de programa. 
Ele tambem inclui ate 1 KB de EEPROM, a memoria nao volatil que pode ser gravada pelo software. A EEPROM 
guarda dados de configuragao do sistema. De novo, usando nosso exemplo de micro-ondas, a EEPROM armaze- 
naria um bit indicando se o micro-ondas mostrara a hora em forma to de 12 ou 24 horas. O ATmegal68 tambem 
incorpora ate 1 KB de SRAM interna, onde o software pode armazenar variaveis temporarias. 

O processador interno roda o conjunto de instrugoes AVR, que e composto de 131 instrugoes, cada uma 
com 16 bits de extensao. O processador tern 8 bits, o que significa que opera sobre valores de dados de 8 
bits, e internamente seus registradores possuem um tamanho de 8 bits. O conjunto de instrugoes incorpora 
instrugoes especiais que permitem ao processador de 8 bits operar de modo eficiente sobre tipos de dados 
maiores. Por exemplo, para realizar adigoes de 16 bits ou maiores, o processador fornece a instrugao “ add - 
-with-carry” (somar com vai-um), que soma dois valores e mais o “vai-um” da adigao anterior. Os outros 
componentes internos englobam o clock em tempo real e uma variedade de logica de interface, incluindo 
suporte para enlaces seriais, enlaces PWM ( pulse-width-modulated - modulado por largura de pulso), enlaces 
I2C (barramento Inter-IC) e controladores analogico e digital. 


3.6 Exemplos de barramentos 

Barramentos sao a cola que mantem a integridade dos sistemas de computadores. Nesta segao, examinaremos 
minuciosamente alguns barramentos populares: o PCI e o USB (Universal Serial Bus - barramento serial univer¬ 
sal). O PCI e o principal barramento de E/S usado hoje em dia nos PCs. Ele pode ter duas formas, o barramento 
PCI mais antigo, e o novo e muito mais rapido barramento PCI Express (PCIe). O Universal Serial Bus e um 
barramento de E/S cada vez mais popular para perifericos de baixa velocidade, como mouses e teclados. Uma 
segunda e terceira versoes do barramento USB rodam com velocidades muito mais altas. Nas proximas segoes, 
veremos esses barramentos um por vez, para ver como eles funcionam. 

3.6.1 0 barramento PCI 

No IBM PC original, a maioria das aplicagoes era baseada em texto. De modo gradual, com a introdugao do 
Windows, pouco a pouco comegaram a ser usadas as interfaces graficas de usuario. Nenhuma dessas aplicagoes 
exigia demais do barramento ISA. Contudo, com o passar do tempo, quando muitas aplicagoes, em especial jogos 
em multimldia, comegaram a usar computadores para exibir video em tela cheia e com movimento completo, a 
situagao mudou radicalmente. 

Vamos fazer um calculo simples. Considere um video colorido de 1.024 x 768 com 3 bytes/pixel. Um 
quadro contem 2,25 MB de dados. Para um movimento suave, sao necessarias ao menos 30 telas por segundo 
para uma taxa de dados de 67,5 MB por segundo. Na verdade, e pior do que isso, pois para apresentar um 
video a partir de um disco rigido, CD-ROM ou DVD, os dados devem passar do drive de disco para o barra¬ 
mento e ir ate a memoria. Entao, para a apresentagao, os dados devem novamente percorrer o barramento ate 
o adaptador grafico. Portanto, precisamos de uma largura de banda de barramento de 135 MB por segundo 
so para o video, sem contar a largura de banda de que a CPU e outros dispositivos precisam. 
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O predecessor do barramento PCI, o ISA, funcionava a taxa maxima de 8,33 MHz e podia transferir 2 bytes 
por ciclo para uma largura de banda maxima de 16,7 MB/s. O barramento ISA avangado, denominado EISA, podia 
movimentar 4 bytes por ciclo, para alcangar 33,3 MB/s. Claro que nenhuma dessas taxas sequer chegava perto do 
que era necessario para apresentagao de video completo em tela. 

Com o video de HD completo moderno, a situagao e ainda pior. Isso exige 1.920 x 1.080 quadros a 30 qua- 
dros/segundo para uma taxa de dados de 155 MB/s (ou 310 MB/s se os dados tiverem que atravessar o barramento 
duas vezes). E claro que o barramento EISA sequer chegar perto de tratar disso. 

Em 1990, a Intel percebeu o que estava para acontecer e desenvolveu um novo barramento com uma 
largura de banda muito mais alta do que a do proprio barramento EISA. Foi denominado barramento PCI 
(Peripheral Component Interconnect Bus - barramento de interconexao de componente periferico). 
Para incentivar sua utilizagao, a Intel patenteou o PCI e entao passou todas as patentes para domlnio 
publico, de modo que qualquer empresa podia construir perifericos para esse barramento sem ter de pagar 
royalties. Ela tambem organizou um consorcio de empresas, o PCI Special Interest Group, para gerenciar 
o futuro desse barramento. O resultado foi que o PCI alcangou enorme popularidade. Praticamente todos 
os computadores com chips Intel a partir do Pentium tern barramento PCI, e muitos outros computadores 
tambem. Esse barramento e apresentado com todos os detalhes tetricos em Shanley e Anderson (1999) e 
Solari e Willse (2004). 

O barramento PCI original transferia 32 bits por ciclo e funcionava em 33 MHz (tempo de ciclo de 30 
ns) para uma largura de banda total de 133 MB/s. Em 1993, foi langado o PCI 2.0 e em 1995 saiu o PCI 
2.1. O PCI 2.2 tern caracterlsticas para computadores portateis (principalmente para economizar energia da 
bateria). O barramento PCI funciona em ate 66 MHz e pode manipular transferences de 64 bits para uma 
largura de banda total de 528 MB/s. Com esse tipo de capacidade, o video de tela inteira e movimento total 
e viavel (admitindo que o disco e o resto do sistema estejam a altura do servigo). Seja como for, o PCI nao 
sera o gargalo. 

Mesmo que 528 MB/s parega muito rapido, ainda ha dois problemas. Primeiro, nao era muito bom para um 
barramento de memoria. Segundo, nao era compatlvel com todas aquelas antigas placas ISA que havia por al. A 
solugao imaginada pela Intel foi projetar computadores com tres ou mais barramentos, conforme mostra a Figura 
3.51. Nessa figura, vemos que a CPU pode se comunicar com a memoria principal por um barramento de memo¬ 
ria especial, e que um barramento ISA pode ser conectado ao PCI. Esse arranjo atendia a todos os requisitos e, 
por consequencia, foi amplamente usado na decada de 1990. 

Dois componentes fundamentais dessa arquitetura sao os dois chips de pontes, fabricados pela Intel - dal 
seu interesse em todo esse projeto. A ponte PCI conecta a CPU, a memoria e o barramento PCI. A ponte ISA 
conecta o barramento PCI ao ISA e tambem suporta um ou dois discos IDE. Quase todos os sistemas PC usando 
essa arquitetura vem com um ou mais encaixes PCI livres para acrescentar novos perifericos de alta velocidade e 
um ou mais encaixes ISA para acrescentar perifericos de baixa velocidade. 

A grande vantagem do arranjo da Figura 3.51 e que a CPU tern uma largura de banda extremamente alta para 
a memoria usando um barramento de memoria proprietario; o PCI oferece alta largura de banda para perifericos 
rapidos, como discos SCSI, adaptadores graficos etc.; e as antigas placas ISA ainda podem ser usadas. A caixa USB 
na figura se refere ao Universal Serial Bus, que sera discutido mais adiante neste capltulo. 

Seria bom se houvesse apenas um tipo de placa PCI. Porem, nao e esse o caso. Ha opgoes para tensao, lar¬ 
gura e temporizagao. Computadores mais antigos usam em geral 5 volts e os mais novos tendem a usar 3,3 volts, 
portanto, o barramento PCI suporta ambos. Os conectores sao os mesmos, exceto por dois pedacinhos de plastico 
que estao la para impedir que as pessoas insiram uma placa de 5 volts em um barramento PCI de 3,3 volts ou 
vice-versa. Felizmente, existem placas universais que suportam ambas as tensoes e podem ser ligadas a quaisquer 
dos tipos de encaixe. Alem da opgao de tensao, as placas tambem tern versoes de 32 bits e 64 bits. As placas de 32 
bits tern 120 pinos; as de 64 bits tern os mesmos 120 pinos mais 64 pinos adicionais. Um sistema de barramento 
PCI que suporta placas de 64 bits tambem pode aceitar placas de 32 bits, mas o inverso nao e verdade. Por fim, 
barramentos e placas PCI podem funcionar em 33 MHz ou 66 MHz. A opgao e feita ligando um pino a fonte de 
energia ou ao fio terra. Os conectores sao identicos para ambas as velocidades. 
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Figura 3.51 Arquitetura de um dos primeiros sistemas Pentium. Os barramentos representados por linhas mais largas tem mais largura de 
banda do que os representados por linhas mais finas, mas a figura nao esta em escala. 
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No final da decada de 1990, quase todos concordavam que o barramento ISA estava morto, portanto, os novos 
projetos o exclulram. Contudo, nessa mesma epoca a resolugao de monitores tinha aumentado, em alguns casos 
para 1.600 x 1.200, e a demanda por video de tela inteira e movimento total tambem cresceu, em especial no con- 
texto de jogos de alto grau de interagao, portanto, a Intel acrescentou mais um outro barramento so para comandar 
a placa grafica. Esse barramento foi denominado barramento AGP (Accelerated Graphics Port bus - barramento 
de porta grafica acelerada). A versao inicial, AGP 1.0, funcionava a 264 MB/s, o que foi definido como lx. Embora 
mais lento que o barramento PCI, foi dedicado a comandar a placa grafica. Com o passar dos anos, salram novas 
versoes, com AGP 3.0 funcionando a 2,1 GB/s (8x). Hoje, ate mesmo o barramento AGP 3.0 de alto desempenho 
foi substituldo por outros ainda mais rapidos, em particular, o PCI Express, que pode bombear incrlveis 16 GB/s de 
dados por enlaces de barramento serial de alta velocidade. Um sistema Core i7 moderno e ilustrado na Figura 3.52. 

Em um sistema moderno baseado no Core i7, diversas interfaces foram integradas diretamente no chip 
da CPU. Os dois canais de memoria DDR3, rodando a 1.333 transagoes/s, conectam-se a memoria principal e 
oferecem uma largura de banda agregada de 10 GB/s por canal. Tambem integrado a CPU esta um canal PCI 
Express de 16 vias, que idealmente pode ser configurado em um unico barramento PCI Express de 16 bits ou 
barramentos PCI Express independentes de 8 bits. As 16 vias juntas oferecem uma largura de banda de 16 GB/s 
para dispositivos de E/S. 

A CPU se conecta ao chip da ponte principal, o P67, por meio da interface de mldia direta (DMI) serial de 20 
Gb/s (2,5 GB/s). O P67 oferece interfaces para uma serie de interfaces de E/S modernas de alto desempenho. Oito 
vias PCI Express adicionais sao fornecidas, mais interfaces de disco SATA. O P67 tambem executa 14 interfaces 
USB 2.0, Ethernet de 10G e uma de audio. 

O chip ICH10 oferece suporte a interface legada para dispositivos antigos. Ele esta conectado ao P67 por 
meio de uma interface DMI mais lenta. O ICH10 implementa o barramento PCI, Ethernet a 1G, portas USB e 
as classicas interfaces PCI Express e SATA. Sistemas mais novos nao podem incorporar o ICH10; isso e exigido 
apenas se o sistema precisa dar suporte a interfaces legadas. 
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Figura 3.52 Estrutura do barramento de um Core i7 moderno. 



• Operacao do barramento PCI 

Como todos os barramentos do PC desde o IBM PC original, o barramento PCI e slncrono. Todas as suas 
transagoes ocorrem entre um mestre, cujo nome oficial e iniciador, e um escravo, oficialmente denominado alvo. 
Para manter baixo o numero de pinos PCI, as linhas de enderegos e dados sao multiplexadas. Desse modo, nas 
placas PCI sao necessarios somente 64 pinos para enderego mais sinais de dados, ainda que o PCI suporte ende¬ 
regos de 64 bits e dados de 64 bits. 

Os pinos de enderego e de dados multiplexados funcionam da seguinte maneira. Em uma operagao de leitu- 
ra, durante o ciclo 1, o mestre coloca o enderego no barramento. No ciclo 2, ele remove o enderego e o barramento 
muda de sentido, de modo que o escravo possa usa-lo. No ciclo 3, o escravo entrega os dados requisitados. Em 
operagoes de escrita, o barramento nao tern de virar porque o mestre coloca o enderego e tambem os dados. Nao 
obstante, a transagao minima ainda dura tres ciclos. Se o escravo nao conseguir responder em tres ciclos, ele pode 
inserir estados de espera. Tambem sao permitidas transferences de blocos sem limite de tamanho, assim como 
diversos outros tipos de ciclos de barramento. 
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• Arbitragem de barramento PCI 

Para usar o barramento PCI, um dispositivo deve antes adquiri-lo. A arbitragem de barramento PCI usa um 
arbitro de barramento centralizado, como mostra a Figura 3.53. Na maioria dos projetos, o arbitro de barramento 
e inserido em um dos chips de ponte. Todo dispositivo PCI tern duas linhas dedicadas que vao dele ate o arbitro. 
Uma linha, req#, e usada para requisitar o barramento. A outra linha, gnt#, e usada para receber concessoes de 
barramento. Nota: req# e a forma do PCI indicar req. 


* Figura 3.53 0 barramento PCI usa um arbitro de barramento centralizado. 



Para requisitar o barramento, um dispositivo PCI (incluindo a CPU) ativa req# e espera ate ver sua linha 
gnt# ativada pelo arbitro. Quando esse evento acontece, o dispositivo pode usar o barramento no proximo ciclo. 
O algoritmo usado pelo arbitro nao e definido pela especificagao do PCI. Arbitragem por varredura circular, arbi¬ 
tragem por prioridade e outros esquemas sao todos permitidos. Claro que um bom arbitro sera justo, de modo a 
nao deixar alguns dispositivos esperando para sempre. 

Uma concessao de barramento serve para uma transagao apenas, embora em teoria o comprimento dessa 
transagao nao tenha limite. Se um dispositivo quiser executar uma segunda transagao e nenhum outro dispo¬ 
sitivo estiver requisitando o barramento, ele pode entrar de novo, apesar de ser preciso inserir um ciclo ocioso 
entre transagoes. Contudo, em circunstancias especiais, na ausencia de disputa pelo barramento, um dispositivo 
pode fazer uma transagao atras da outra sem ter de inserir um ciclo ocioso. Se um mestre de barramento estiver 
realizando uma transference muito longa e algum outro dispositivo requisitar o barramento, o arbitro pode 
negar a linha gnt#. O mestre de barramento em questao deve monitorar a linha gnt#; portanto, quando perce- 
ber a negagao, deve liberar o barramento no proximo ciclo. Esse esquema permite transferences muito longas 
(que sao eficientes) quando ha so um mestre de barramento Candida to, mas ainda assim da resposta rapida a 
dispositivos concorrentes. 

• Sinais de barramento PCI 

O barramento PCI tern varios sinais obrigatorios, mostrados na Figura 3.54(a), e varios sinais opcionais, 
mostrados na Figura 3.54(b). O restante dos 120 ou 184 pinos sao usados para energia, aterramento e diversas 
fungoes relacionadas, e nao aparecem nessa lista. As colunas Mestre (iniciador) e Escravo (alvo) informam quern 
ativa o sinal em uma transagao normal. Se o sinal for ativado por um dispositivo diferente (por exemplo, clk), 
ambas as colunas sao deixadas em branco. 
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Figura 3.54 (a) Sinais obrigatorios de barramento PCI. (b) Sinais opcionais de barramento PCI. 



(a) 



(b) 


Agora, vamos examinar brevemente cada um dos sinais do barramento PCI. Comegaremos com os obrigato¬ 
rios (32 bits) e em seguida passaremos para os opcionais (64 bits). O sinal clk comanda o barramento. A maioria 
dos outros sinais e slncrona com ele. Ao contrario do ISA, uma transagao de barramento PCI comega na borda 
descendente do clk, que esta no meio do ciclo, em vez de estar no inlcio. 

Os 32 sinais ad sao para enderegos e dados (para transagoes de 32 bits). Em geral, durante o ciclo 1 o ende- 
rego e ativado e durante o ciclo 3 os dados sao ativados. O sinal PAR e um bit de paridade para ad. O sinal c/be# 
e usado para duas coisas diferentes. No ciclo 1, ele contem o comando de barramento (leia 1 palavra, leia bloco 
etc.). No ciclo 2, contem um mapa de bits de 4 bits que informa quais bytes da palavra de 32 bits sao validos. 
Usando c/be# e posslvel ler ou escrever 1, 2 ou 3 bytes quaisquer, bem como uma palavra inteira. 

O sinal frame# e ativado pelo mestre para iniciar uma transagao de barramento. Informa ao escravo que os 
comandos de enderego e barramento agora sao validos. Em uma leitura, usualmente o irdy# e ativado ao mesmo 
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tempo em que o frame#. Ele informa que o mestre esta pronto para aceitar dados que estao chegando. Em uma 
escrita, o irdy# e ativado mais tarde, quando os dados estao no barramento. 

O sinal idsel esta relacionado ao fato de que todo dispositivo PCI deve ter um espago de configuragao de 
256 bytes que outros dispositivos possam ler (ativando idsel). Esse espago de configuragao contem propriedades 
do dispositivo. A caracterlstica plug-and-play de alguns sistemas operacionais usa o espago de configuragao para 
saber quais dispositivos estao no barramento. 

Agora, chegamos aos sinais ativados pelo escravo. O primeiro deles, devsel#, anuncia que o escravo detectou 
seu enderego nas linhas ad e esta preparado para realizar a transagao. Se devsel# nao for ativado em certo limite 
de tempo, o mestre esgota sua temporizagao e supoe que o dispositivo enderegado esta ausente ou avariado. 

O segundo sinal de escravo e trdy#, que ele ativa em leituras para anunciar que os dados estao nas linhas ad 
e em escritas para anunciar que esta preparado para aceitar dados. 

Os tres sinais seguintes sao para notificar erros. O primeiro deles e stop#, que o escravo ativa se algo desas- 
troso acontecer e ele quiser abortar a transagao corrente. O seguinte, perr#, e usado para notificar um erro de 
paridade no ciclo anterior. Para uma leitura, ele e ativado pelo mestre; para uma escrita, pelo escravo. Cabe ao 
receptor executar a agao adequada. Por fim, serr# e para reportar erros de enderego e de sistema. 

Os sinais req# e gnt# sao para fazer arbitragem de barramento. Eles nao sao assegurados pelo mestre de 
transference de dados em questao, mas por um dispositivo que quer se tornar mestre de barramento. O ultimo 
sinal obrigatorio e rst#, usado para reiniciar o sistema, seja porque o usuario apertou a tecla RESET seja porque 
algum dispositivo do sistema notou um erro fatal. Ativar esse sinal restaura todos os dispositivos e reinicia o 
computador. 

Agora, chegamos aos sinais opcionais, cuja maioria esta relacionada a expansao de 32 bits para 64 bits. Os 
sinais req 64 # e ack 64 # permitem que o mestre pega permissao para conduzir uma transagao de 64 bits e permite 
que o escravo aceite, respectivamente. Os sinais ad, par 64 e c/be# sao apenas extensoes dos sinais correspondentes 
de 32 bits. 

Os tres sinais seguintes nao estao relacionados aos 32 bits contra 64 bits, mas a sistemas multiprocessadores, 
algo que as placas PCI nao sao obrigadas a suportar. O sinal lock permite que o barramento seja travado para mul- 
tiplas transagoes. Os dois seguintes estao relacionados a escuta do barramento para manter coerencia de cache. 

Os sinais intx sao para requisitar interrupgoes. Uma placa PCI pode conter ate quatro dispositivos logicos 
separados e cada um pode ter sua propria linha e requisigao de interrupgao. Os sinais jtag sao para procedimento 
de teste IEEE 1149.1 JTAG. Por fim, o sinal M66EN e ligado alto ou e ligado baixo para estabelecer a velocidade de 
clock. Nao deve mudar durante a operagao do sistema. 

• Transacoes de barramento PCI 

Na realidade, o barramento PCI e muito simples (no que diz respeito a barramentos). Para ter uma ideia 
melhor dele, considere o diagrama temporal da Figura 3.55, onde podemos ver uma transagao de leitura seguida 
por um ciclo ocioso, seguida por uma transagao de escrita pelo mesmo mestre de barramento. 

Quando a borda descendente do clock acontece durante Ti, o mestre poe o enderego de memoria em ad e o 
comando de barramento em c/be#. Entao, ativa frame# para iniciar a transagao de barramento. 

Durante T 2 , o mestre libera o barramento de enderego para deixar que ele retorne em preparagao para o 
comando do escravo durante T 3 . O mestre tambem muda c/be# para indicar quais bytes na palavra enderegada ele 
quer habilitar, isto e, quais quer que sejam lidos. 

Em T 3 , o escravo ativa devsel# de modo que o mestre saiba que ele obteve o enderego e esta planejando res¬ 
ponder. Alem disso, poe os dados nas linhas ad e ativa trdy# para informar ao mestre que fez isso. Se o escravo 
nao puder responder com tanta rapidez, ainda assim ele ativaria devsel# para anunciar sua presenga, mas manteria 
trdy# negado ate que pudesse obter os dados que la estao. Esse procedimento introduziria um ou mais estados 
de espera. 
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Figura 3.55 Exemplos de transacoes de barramento PCI de 32 bits. Os tres primeiros cidos sao usados para uma operacao de leitura, em 
seguida um ddo odoso e depois tres ados para uma operacao de escrita. 

Ciclo de barramento 



Nesse exemplo (e muitas vezes na realidade), o ciclo seguinte e ocioso. Comegando em T 5 , vemos o mesmo 
mestre iniciando uma escrita. Ele comega colocando o enderego e o comando no barramento, como sempre. So 
que agora, no segundo ciclo, ele ativa os dados. Uma vez que o mesmo dispositivo esta comandando as linhas ad, 
nao ha necessidade de um ciclo de retorno. Em T 7 , a memoria aceita os dados. 

3.6.2 PCI Express 

Embora o funcionamento do barramento PCI seja adequado para a maioria das aplicagoes, a necessidade de 
maior largura de banda de E/S esta causando uma confusao na antes limpa arquitetura interna do PC. A Figura 
3.52 deixa claro que o barramento PCI nao e mais o elemento central que mantem unidas as partes do PC. O chip 
ponte se apossou de parte desse papel. 

A essentia do problema e que ha cada vez mais dispositivos de E/S muito rapidos para o barramento PCI. 
Elevar a frequencia de clock do barramento nao e uma boa solugao porque entao os problemas de atraso diferen- 
cial no barramento, interference na fiagao e efeitos de capacitancia so ficariam piores. Toda vez que um dispo¬ 
sitivo de E/S fica muito rapido para o barramento PCI (como as placas graficas, disco rlgido, redes etc.), a Intel 
acrescenta uma porta especial para o chip ponte para permitir que o dispositivo contorne o barramento PCI. Claro 
que isso tampouco e uma solugao de longo prazo. 

Outro problema com o barramento PCI e que as placas sao muito grandes. Placas PCI padrao costumam ter 
17,5 cm por 10,7 cm e placas inferiores possuem 12,0 cm por 3,6 cm. Nenhuma delas cabe em laptops e, com 
certeza, nao em dispositivos moveis. Os fabricantes gostariam de produzir dispositivos menores ainda. Alem 
disso, alguns deles gostariam de repartir o espago interno do PC, colocando a CPU e a memoria dentro de uma 
pequena caixa selada e o disco rlgido dentro do monitor. Com as placas PCI e imposslvel fazer isso. 

Diversas solugoes foram propostas, mas a que tern mais probabilidade de veneer (e em grande parte porque 
a Intel esta por tras dela) e denominada PCI Express. Ela tern pouco a ver com o barramento PCI e, na verdade, 
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nem e um barramento, mas o pessoal do marketing nao quer largar mao do famoso nome PCI. PCs que contem 
essa solugao ja estao no mercado ha algum tempo. Vamos ver como eles funcionam. 

• Arquitetura do PCI Express 

O coragao da solugao PCI Express (em geral, abreviado como PCIe) e se livrar do barramento paralelo com 
seus muitos mestres e escravos e passar para um projeto baseado em conexoes seriais ponto a ponto de alta 
velocidade. Essa solugao representa uma ruptura radical com a tradigao do barramento ISA/EISA/PCI e toma 
emprestadas muitas ideias do mundo das redes locais, em especial a Ethernet comutada. A ideia basica se resume 
no seguinte: no fundo, um PC e um conjunto de chips de CPU, memoria, controladores de E/S que precisa ser 
interconectado. O que o PCI Express faz e fornecer um cornutador de uso geral para conectar chips usando liga- 
goes seriais. Uma configuragao tlpica e ilustrada na Figura 3.56. 


Figura 3.56 Sistema PCI Express tipico. 



Como mostra a figura, a CPU, a memoria e a cache estao conectadas ao chip ponte no modo tradicional. A 
novidade aqui e um comutador conectado a ponte (talvez parte do proprio chip ponte ou integrado diretamente ao 
processador). Cada um dos chips de E/S tern uma conexao ponto a ponto dedicada com o comutador. Cada conexao 
consiste em um par de canais unidirecionais, um que vai para o comutador e outro que vem dele. Cada canal e com- 
posto de dois fios, um para o sinal e outro para o terra, para dar imunidade contra ruldo alto durante a transmissao 
de alta velocidade. Essa arquitetura substituira a atual por um modelo muito mais uniforme, no qual todos os dispo- 
sitivos sao tratados igualmente. 

A arquitetura PCI Express tern tres pontos de diferenga em relagao ao antigo barramento PCI. Ja vimos dois 
deles: um comutador centralizado contra um barramento multidrop e a utilizagao de conexoes seriais ponto a 
ponto estreitas contra um barramento paralelo largo. O terceiro e mais sutil. O modelo conceitual que fundamen- 
ta o PCI e o de um mestre de barramento que emite um comando a um escravo para ler uma palavra ou um bloco 
de palavras. O modelo do PCI Express e o de um dispositivo que envia um pacote de dados a outro dispositivo. 
O conceito de um pacote, que consiste em um cabegalho e em uma carga util, e tirado do mundo das redes. 
O cabegalho contem informagao de controle, o que elimina a necessidade dos muitos sinais de controle presen- 
tes no barramento PCI. A carga util contem os dados a transferir. Na verdade, um PC com PCI Express e uma 
miniatura de rede de comutagao de pacotes. 
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Alem dessas tres importantes rupturas com o passado, tambem ha diversas pequenas diferengas. A quarta e 
que o codigo de detecgao de erro e usado somente nos pacotes, o que da um grau de confiabilidade mais alto do 
que o barramento PCI. A quinta e que a conexao entre um chip e o cornutador e mais longa do que era, ate 50 cm, 
para permitir a repartigao do sistema. A sexta e que o sistema pode ser expandido porque um dispositivo pode per- 
feitamente ser outro cornu tador, o que permite uma arvore de cornu tadores. A setima e que dispositivos podem ser 
acrescentados ou removidos do sistema enquanto ele esta em operagao. Por fim, uma vez que conectores seriais 
sao muito menores do que os antigos conectores PCI, podem-se fabricar dispositivos e computadores muito 
menores. Em resumo, o PCI Express e uma grande ruptura em relagao ao barramento PCI. 

• Pilha de protocolos do PCI Express 

Condizente com o modelo de uma rede de comutagao de pacotes, o sistema PCI Express tern uma pilha de 
protocolos em camadas. Um protocolo e um conjunto de regras que governam a conversa entre duas partes. Uma 
pilha de protocolos e uma hierarquia de protocolos que tratam de questoes diferentes em camadas diferentes. Por 
exemplo, considere uma carta comercial. Ela obedece a certas convengoes referentes a localizagao e ao conteudo 
do cabegalho, ao enderego do destinatario, a data, aos cumprimentos, ao corpo, a assinatura e assim por dian- 
te. Podemos dizer que tudo isso junto e um protocolo de carta. Alem disso, ha outro conjunto de convengoes 
referentes ao envelope, como tamanho, local e forma to do enderego do remetente, local e formato do enderego 
do destinatario, local do selo e assim por diante. Essas duas camadas e seus protocolos sao independentes. Por 
exemplo, e posslvel dar um formato completamente diferente a carta, mas usar o mesmo envelope, e vice-versa. 
Protocolos em camadas sao um projeto modular flexivel e ha decadas sao muito usados no mundo dos softwares 
de rede. A novidade, no caso, e monta-los no hardware do “barramento”. 

A pilha de protocolos do PCI Express e mostrada na Figura 3.57(a). Ela e discutida a seguir. 


Figura 3.57 (a) Pilha de protocolos do PCI Express, (b) Formato de um pocote. 
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Vamos examinar as camadas de baixo para cima. A camada mais baixa e a camada flsica. Ela trata da movi- 
mentagao de bits de um remetente para um destinatario por uma conexao ponto a ponto. Cada conexao ponto a 
ponto consiste em um ou mais pares de enlaces simplex (isto e, unidirecionais). No caso mais simples, ha um par 
em cada diregao, mas tambem e permitido ter 2, 4, 8, 16 ou 32 pares. Cada enlace e denominado via. O numero 
de vias em cada diregao deve ser o mesmo. Produtos de primeira geragao devem suportar uma taxa de dados de 
no mlnimo 2,5 Gbps, mas espera-se que logo a velocidade passe para 10 Gbps em cada diregao. 

Diferente dos barramentos ISA/EISA/PCI, o PCI Express nao tern um clock mestre. Os dispositivos tern 
liberdade para comegar a transmitir tao logo tenham dados a enviar. Essa liberdade deixa o sistema mais rapido, 
mas tambem leva a um problema. Suponha que um bit 1 seja codificado como +3 volts e um bit 0, como 0 volt. 
Se os primeiros bytes forem todos Os, como o destinatario sabe que dados estao sendo transmitidos? Afinal, uma 
sequencia de 0 bits parece o mesmo que um enlace ocioso. O problema e resolvido usando o que denominamos 
codificagao 8b/10b. Nesse esquema, 10 bits sao usados para codificar 1 byte de dados reais em um slmbolo de 10 
bits. Entre os 1.024 slmbolos de 10 bits posslveis, foram escolhidos como legais os que tern suficientes transigoes 
de clock para manter remetente e destinatario sincronizados nas fronteiras de bits, mesmo sem um clock mestre. 
Uma consequencia da codificagao 8b/10b e que um enlace que tenha uma capacidade bruta de 2,5 Gbps so pode 
transmitir 2 Gbps (llquidos) de dados de usuario. 
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Enquanto a camada flsica lida com transmissao de bits, a camada de enlace trata de transmissao de pacotes. 
Ela pega o cabegalho e a carga util passados para ela pela camada de transagao e acrescenta a eles um numero 
de sequencia e um codigo de corregao de erro denominado CRC (Cyclic Redundancy Check - verificagao por 
redundancia ciclica). O CRC e gerado pela execugao de certo algoritmo no cabegalho e nos dados da carga 
util. Quando um pacote e recebido, o destinatario efetua alguns calculos no cabegalho e nos dados e compara o 
resultado com o CRC anexado ao pacote. Se forem compatlveis, ele devolve um curto pacote de reconhecimento 
confirmando sua correta chegada. Se nao forem, o destinatario solicita uma re transmissao. Desse modo, a integri- 
dade dos dados melhora muito em relagao ao sistema de barramento PCI, que nao tern nenhuma prescrigao para 
verificagao e retransmissao de dados enviados pelo barramento. 

Para evitar que um transmissor rapido soterre um receptor lento com pacotes que ele nao pode manipu- 
lar, e usado um mecanismo de controle de fluxo que funciona da seguinte maneira: o receptor concede ao 
transmissor certo numero de creditos que correspondem em essentia a quantidade de espago de buffer de que 
ele dispoe para armazenar pacotes que chegam. Quando os creditos se esgotam, o transmissor tern de parar de 
enviar pacotes ate receber mais creditos. Esse esquema, que e muito usado em todas as redes, evita a perda 
de dados em consequencia da incompatibilidade entre as velocidades do transmissor e do receptor. 

A camada de transagao trata das agoes do barramento. Ler uma palavra da memoria requer duas transagoes: 
uma iniciada pela CPU ou canal DMA que esta requisitando alguns dados e outra iniciada pelo alvo que esta for- 
necendo os dados. Mas a camada de transagao faz mais do que manipular leituras e escritas puras. Ela adiciona 
valor a transmissao de pacotes bruta oferecida pela camada de enlace. Para comegar, ela pode dividir cada via em 
ate oito circuitos virtuais, cada um manipulando uma classe de trafego diferente. A camada de transagao pode 
rotular pacotes de acordo com sua classe de trafego, o que pode incluir atributos como “alta prioridade”, “baixa 
prioridade”, “nao escute”, “pode ser entregue fora da ordem” e outros mais. O comutador pode usar esses rotulos 
para decidir qual pacote manipulara em seguida. 

Cada transagao usa um dos quatro espagos de enderegos: 

1. Espago da memoria (para leituras e escritas comuns). 

2. Espago de E/S (para enderegar registradores de dispositivos). 

3. Espago de configuragao (para inicializagao do sistema etc.). 

4. Espago de mensagem (para sinalizagao, interrupgoes etc.). 

Os espagos de memoria e E/S sao semelhantes aos dos sistemas existentes. O espago de configuragao pode 
ser usado para executar caracterlsticas como plug-and-play. O espago de mensagem assume o papel de muitos 
dos sinais de controle existentes. E necessario ter algo parecido com esse espago porque nenhuma das linhas de 
controle do PCI existe no PCI Express. 

A camada de software faz a interface entre sistema PCI Express e sistema operacional. Ela pode emular o 
barramento PCI, possibilitando a execugao de sistemas operacionais existentes nao modificados em sistemas PCI 
Express. Claro que uma operagao como essa nao ira explorar todo poder do PCI Express, mas a compatibilidade 
e um mal necessario ate que os sistemas operacionais sejam modificados para utilizar totalmente o PCI Express. 
A experiencia mostra que isso pode levar algum tempo. 

O fluxo de informagoes e ilustrado na Figura 3.57(b). Quando e dado um comando a camada de software, 
esta o passa para a camada de transagao, que o formula em termos de um cabegalho e uma carga util. Entao, essas 
duas partes sao passadas para a camada de enlace, que acrescenta um numero de sequencia a sua parte anterior e 
um CRC a posterior. Em seguida, esse pacote ampliado e passado a camada flsica, que acrescenta informagoes de 
enquadramento de dados a cada extremidade para formar o pacote flsico, que e, por fim, transmitido. Na extre- 
midade receptora ocorre o processo inverso - cabegalho de enlace e as informagoes que acompanham o bloco de 
dados ( trailer ) sao removidos e o resultado e passado para a camada de transagao. 

O conceito do acrescimo de informagoes adicionais aos dados a medida que ele desce pela pilha de protoco¬ 
ls j a e usado ha decadas no mundo das redes com grande sucesso. A grande diferenga entre uma rede e o PCI 
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Express e que, no mundo das redes, o codigo nas varias camadas quase sempre e um software que faz parte do 
sistema operacional. No PCI Express, ele faz parte do hardware do dispositivo. 

O PCI Express e um assunto complicado. Para mais informagoes, consulte Mayhew e Krishnan, 2003; e 
Solari e Congdon, 2005. Ele ainda esta evoluindo. Em 2007, o PCIe 2.0 foi langado. Ele admite 500 MB/s por 
via em ate 32 vias, para uma largura de banda total de 16 GB/s. Depois veio o PCIe 3.0 em 2011, que mudou a 
codificagao de 8b/10b para 128b/130b e pode rodar a 8 bilhoes de transagoes por segundo, o dobro do PCIe 2.0. 

3.6.3 Barramento serial universal (USB) 

O barramento PCI e o PCI Express sao bons para anexar perifericos de alta velocidade a um computador, mas 
sao muito caros para dispositivos de E/S de baixa velocidade, como teclados e mouses. Cada dispositivo padrao de 
E/S era conectado ao computador de modo especial, com alguns encaixes ISA e PCI livres para adicionar novos 
dispositivos. Infelizmente, esse esquema teve problemas desde o inlcio. 

Por exemplo, cada novo dispositivo de E/S costuma vir com sua propria placa ISA ou PCI. Muitas vezes, o usua- 
rio e responsavel pelo ajuste de comutadores e pontes na placa e por assegurar que tais ajustes nao entrem em con- 
flito com as outras placas. Entao, ele precisa abrir a torre, inserir cuidadosamente a placa, fechar a torre e reiniciar 
o computador. Para muitos usuarios, esse processo e diflcil e sujeito a erros. Alem disso, o numero de encaixes ISA 
e PCI e muito limitado (em geral, dois ou tres). Placas plug-and-play eliminam o ajuste das pontes, mas ainda assim 
o usuario tern de abrir o computador para inserir a placa e o numero de encaixes do barramento continua limitado. 

Para tratar desse problema, em 1993, representantes de sete empresas (Compaq, DEC, IBM, Intel, Microsoft, 
NEC e Northern Telecom) se reuniram para buscar a melhor maneira de anexar dispositivos de E/S a um computador. 
Desde entao, centenas de outras empresas se juntaram a elas. O padrao resultante, langado oficialmente em 1998, e 
denominado USB (Universal Serial Bus - barramento serial universal), e e amplamente executado em computadores 
pessoais. Uma descrigao mais detalhada desse barramento pode ser encontrada em Anderson (1997) eTan (1997). 

Alguns dos objetivos das empresas que conceberam o USB original e iniciaram o projeto eram os seguintes: 

1. Usuarios nao terao de ajustar comutadores ou pontes em placas ou dispositivos. 

2. Usuarios nao terao de abrir a torre para instalar novos dispositivos de E/S. 

3. Havera apenas um tipo de cabo, que servira para conectar todos os dispositivos. 

4. A energia para os dispositivos de E/S deve ser fornecida por esse cabo. 

5. Ate 127 dispositivos poderao ser ligados a um unico computador. 

6. O sistema deve suportar dispositivos de tempo real (por exemplo, som, telefone). 

7. Os dispositivos poderao ser instalados com o computador em funcionamento. 

8. Nao sera preciso reiniciar o computador apos a instalagao do dispositivo. 

9. O custo de produgao do novo barramento e de seus dispositivos de E/S nao deve ser alto. 

O USB cumpre todos esses objetivos. E projetado para dispositivos de baixa velocidade, como teclados, mou¬ 
ses, cameras fotograficas, scanners , telefones digitais e assim por diante. A versao 1.0 tern uma largura de banda 
de 1,5 Mbps, que e suficiente para teclados e mouses. A versao 1.1 funciona em 12 Mbps, que e suficiente para 
impressoras, cameras digitais e muitos outros dispositivos. A versao 2.0 tern suporte para dispositivos com ate 
480 Mbps, que e suficiente para trabalhar com drives de disco externos, webcams de alta definigao e interfaces de 
rede. O USB versao 3.0, recentemente definido, empurra as velocidades para acima de 5 Gbps; so o tempo dira 
quais aplicagoes novas e avidas por largura de banda aproveitarao essa interface com largura de banda ultra-alta. 

Um sistema USB consiste em um hub -raiz ( root hub ) que e ligado ao barramento principal (veja a Figura 
3.51). Esse hub tern soquetes para cabos que podem ser conectados a dispositivos de E/S ou a hubs de expansao, 
para fornecer mais soquetes, de modo que a topologia de um sistema USB e uma arvore cuja raiz esta no hub, 
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dentro do computador. Ha diferentes conectores na extremidade dos cabos do hub -raiz e na extremidade do dis- 
positivo para evitar que, por acidente, os usuarios liguem dois soquetes entre si. 

O cabo consiste em quatro fios: dois para dados, um para energia (+5 volts) e um para terra. O sistema de 
sinalizagao transmite um 0 como uma transigao de tensao e um 1 como ausencia de uma transigao da tensao, 
portanto, longas carreiras de Os geram um fluxo regular de pulsos. 

Quando um novo dispositivo de E/S e ligado, o hub -raiz detecta esse evento e interrompe o sistema ope- 
racional, que entao pesquisa para descobrir que dispositivo e e de quanta largura de banda USB ele precisa. 
Se o sistema operacional decidir que ha suficiente largura de banda para o dispositivo, atribui um enderego 
exclusivo para ele (1-127) e descarrega esse enderego e outras informagoes em registradores de configura- 
gao dentro do dispositivo. Desse modo, novos dispositivos podem ser acrescentados com o computador em 
funcionamento, sem exigir nenhuma configuragao da parte do usuario e sem ter de instalar novas placas ISA 
ou PCI. Placas nao inicializadas comegam com enderego 0, por isso, podem ser enderegadas. Para simplificar 
o cabeamento, muitos dispositivos USB contem conexoes internas que aceitam dispositivos USB adicionais. 
Por exemplo, um monitor poderia ter dois soquetes de conexao para acomodar os alto-falantes esquerdo e 
direito. 

Em termos logicos, o sistema USB pode ser visto como um conjunto de ramificagoes que saem do hub -raiz 
para os dispositivos de E/S. Cada dispositivo pode subdividir sua propria ramificagao em ate 16 ramos secunda- 
rios para diferentes tipos de dados (por exemplo, audio e video). Dentro de cada ramo secundario, os dados fluem 
do hub -raiz ate o dispositivo, ou ao contrario. Nao ha trafego entre dois dispositivos de E/S. 

Exatamente a cada 1,00 ± 0,05 ms, o hub -raiz transmite um novo quadro para manter todos os dispositivos 
sincronizados em relagao ao tempo. Um quadro e associado a um caminho de bit e consiste em pacotes, o primei- 
ro dos quais vem do hub -raiz ate o dispositivo. Pacotes subsequentes no quadro tambem podem ir nessa diregao 
ou voltar do dispositivo ate o hub- raiz. A Figura 3.58 mostra uma sequencia de quatro quadros. 

Na Figura 3.58, nao ha nenhum servigo a ser realizado nos quadros 0 e 2, portanto, basta um pacote SOF 
(Start of Frame - inlcio do quadro). Ele e sempre transmitido para todos os dispositivos. O quadro 1 e uma son- 
dagem (poll), por exemplo, uma requisigao para que um scanner devolva os bits que encontrou na imagem que 
esta digitalizando. O quadro 3 consiste em entregar dados a algum dispositivo, por exemplo, uma impressora. 

O USB suporta quatro tipos de quadros: de controle, isocrono, de volume e de interrupgao. Quadros de con- 
trole sao usados para configurar dispositivos, transmitir-lhes comandos e inquirir seu estado. Quadros isocronos 
sao para dispositivos de tempo real, como microfones, alto-falantes e telefones, que precisam enviar ou aceitar 
dados a intervalos de tempo exatos. Eles tern um atraso muito previslvel, mas nao fazem retransmissoes quando 


Figura 3.58 


Hub -raiz USB emite quadros a cada 1,00 ms. 
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ocorrem erros. Quadros de volume sao para grandes transferencias de e para dispositivos para os quais nao ha 
requisitos de tempo real, como impressoras. Por fim, quadros de interrupgao sao necessarios porque o USB nao 
aceita interrupgoes. Por exemplo, em vez de fazer com que o teclado cause uma interrupgao sempre que uma tecla 
e acionada, o sistema operacional pode fazer uma sondagem a cada 50 ms para coletar qualquer tecla acionada 
que esteja pendente. 

Um quadro consiste em um ou mais pacotes, alguns possivelmente na mesma diregao. Existem quatro tipos 
de pacotes: permissao (token), dados, apresentagao ( handshake ) e especial. Pacotes de permissao vem da raiz 
ate um dispositivo e servem para controle do sistema. Os pacotes SOF, IN e OUT na Figura 3.58 sao pacotes 
de permissao. O pacote SOF e o primeiro de cada quadro e marca seu inlcio. Se nao houver nenhum trabalho a 
realizar, o pacote SOF e o unico no quadro. O pacote de permissao IN e uma sondagem, que pede ao dispositivo 
que retorne certos dados. Campos no pacote IN informam qual caminho esta sendo sondado de modo que o 
dispositivo saiba quais dados retornar (se tiver multiplos fluxos). O pacote de permissao OUT anuncia ao dispo¬ 
sitivo que serao enviados dados a ele. Um quarto tipo de pacote de permissao, SETUP (nao mostrado na figura), 
e usado para configuragao. 

Alem do pacote de permissao ha tres outros tipos de pacote: DATA (usado para transmitir ate 64 bytes de 
informagao em qualquer diregao), pacotes de apresentagao e pacotes especiais. O formato de um pacote de dados 
e mostrado na Figura 3.58. Consiste em um campo de sincronizagao de 8 bits, um tipo de pacote (PID) de 8 bits, 
a carga util ( payload ) e um CRC de 16 bits para detectar erros. Sao definidos tres tipos de pacotes de apresentagao: 
ACK (o pacote de dados anterior foi recebido corretamente), NAK (foi detectado um erro CRC) e STAFF (favor 
esperar - agora estou ocupado). 

Agora, vamos examinar a Figura 3.58 mais uma vez. A cada 1,00 ms um quadro deve ser enviado do 
hub- raiz, mesmo que nao haja trabalho a realizar. Os quadros 0 e 2 consistem em apenas um pacote SOF, 
indicando que nao ha trabalho a executar. O quadro 1 e uma sondagem, portanto, comega com pacotes SOF 
e IN do computador ao dispositivo de E/S, seguidos por um pacote DATA do dispositivo para o computador. 
O pacote ACK informa ao dispositivo que os dados foram recebidos corretamente. Caso ocorra um erro, um 
NAK e devolvido ao dispositivo e o pacote e retransmitido quando for de volume, mas nao quando os dados 
forem isocronos. A estrutura do quadro 3 e semelhante a do quadro 1, exceto que agora o fluxo de dados e 
do computador para o dispositivo. 

Apos a conclusao do padrao USB em 1998, o pessoal que o projetou nao tinha nada para fazer, entao, come- 
gou a trabalhar em uma nova versao de alta velocidade do USB, denominada USB 2.0. Esse padrao e semelhante 
ao antigo USB l.le compatlvel com ele, exceto pela adigao de uma terceira velocidade, 480 Mbps, as duas exis- 
tentes. Alem disso, ha algumas pequenas diferengas, como interface entre hub -raiz e o controlador. O USB 1.1 
tinha duas interfaces disponlveis. A primeira, UHCI (Universal Host Controller Interface - interface universal 
de controlador de hospedeiro), foi projetada pela Intel e passava grande parte da carga para os projetistas de 
software (leia-se: Microsoft). A segunda, OHCI (Open Host Controller Interface - interface aberta de controla¬ 
dor de hospedeiro), foi projetada pela Microsoft e passava grande parte da carga para os projetistas de hardware 
(leia-se: Intel). No USB 2.0, todos concordaram com uma nova interface unica denominada EHCI (Enhanced 
Host Controller Interface - interface melhorada de controlador de hospedeiro). 

Agora que o USB funcionava a 480 Mbps, passou a competir com o barramento serial IEEE 1394, mais conhe- 
cido como FireWire, que funciona a 400 Mbps ou 800 Mbps. Visto que praticamente todo novo PC baseado no 
Intel agora vem com USB 2.0 ou USB 3.0 (ver a seguir), e provavel que o 1394 desaparega no devido tempo. O 
desaparecimento nao e tanto pela obsolescencia quanto a guerra por territories. O USB e um produto da industria 
da computagao, enquanto o 1394 vem do setor de eletronica de consumo. Quando se trata de conectar cameras a 
computadores, cada industria queria que todos usassem seu cabo. Parece que o pessoal do computador ganhou essa. 

Oito anos depois da introdugao do USB 2.0, o padrao de interface USB 3.0 foi anunciado. O USB 3.0 admite 
incrlveis 5 Gbps de largura de banda pelo cabo, embora a modulagao do enlace seja adaptativa, e provavelmente 
essa velocidade so podera ser alcangada com cabeamento de qualidade profissional. Os dispositivos USB 3.0 sao 
estruturalmente identicos aos dispositivos USB anteriores, e executam totalmente o padrao USB 2.0. Se conecta- 
dos a um soquete USB 2.0, eles operarao corretamente. 
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3.7 Interface 

Um sistema de computador tlpico de pequeno a medio porte consiste em um chip de CPU, chipset , chips de 
memoria e alguns controladores de E/S, todos conectados por um barramento. As vezes, todos esses dispositivos 
estao integrados a um sistema-em-um-chip, como o TI OMAP4430. Ja estudamos memorias, CPUs e barramentos 
com certo detalhe. Agora, chegou a hora de examinar a ultima parte do quebra-cabega, as interfaces de E/S. E por 
meio dessas portas de E/S que o computador se comunica com o mundo exterior. 

3.7.1 Interfaces de E/S 

Ha inumeras interfaces de E/S disponlveis no mercado e novas sao langadas o tempo todo. Entre as interfaces 
comuns estao UARTs, USARTs, controladores de CRT, controladores de disco e PIOs. Uma UART (Universal 
Asynchronous Receiver Transmitter - transmissor receptor asslncrono universal) e uma interface de E/S que 
pode ler um byte do barramento de dados e entrega-lo um bit por vez a um terminal por meio de uma linha serial, 
ou receber dados de um terminal. Em geral, as UARTs permitem varias velocidades de 50 a 19.200 bps; largura de 
caracteres de 5 a 8 bits; 1, 1,5 ou 2 bits de fim; e fornecem paridade par, hnpar ou nenhuma paridade, tudo sob con- 
trole de programa. USARTs (Universal Synchronous Asynchronous Receiver Transmitters - transmissor receptor 
asslncrono slncrono universal) podem manipular transmissao slncrona usando uma variedade de protocolos, bem 
como executando todas as fungoes da UART. Como as UARTs se tornaram menos importantes com o desapareci- 
mento dos modems de telefone, agora vamos estudar a interface paralela como exemplo de uma interface de E/S. 

• Interfaces PIO 

Uma interface PIO (Parallel Input/Output - entrada e saida paralela) tlpica e o Intel 8255A, mostrado na 
Figura 3.59. Ele tern uma serie de linhas de E/S (por exemplo, 24 linhas de E/S no exemplo da figura) que podem 
fazer ligagao com qualquer interface de dispositivo logico digital, por exemplo, teclados, cornutadores, luzes ou 
impressoras. Resumindo, o programa da CPU pode escrever um 0 ou 1, ou ler o estado de entrada de qualquer 
linha, o que da grande flexibilidade. Um pequeno sistema com CPU que use uma interface PIO pode controlar 
diversos dispositivos flsicos, como um robo, torradeira ou microscopio eletronico. As interfaces PIO sao encon- 
tradas frequentemente em sistemas embutidos. 


Figura 3.59 Uma interface PIO de 24 I 
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A interface PIO e configurada com um registrador de configuragao de 3 bits, que especifica se as tres portas 
independentes de 8 bits devem ser usadas para entrada (0) ou saida (1) do sinal digital. A definigao do valor 
apropriado no registrador de configuragao permitira qualquer combinagao de entrada e saida para as tres portas. 
Associado com cada porta ha um registrador com amostragem de 8 bits. Para estabelecer as linhas em uma porta 
de saida, a CPU apenas escreve um numero de 8 bits no registrador correspondente, e esse numero aparece nas 
linhas de saida e fica ali ate que o registrador seja reescrito. Para usar uma porta para entrada, a CPU apenas le o 
registrador de 8 bits correspondente. 

E possivel montar interfaces PIO mais sofisticadas. Por exemplo, um modo de operagao popular fornece apre- 
sentagao com dispositivos externos. Assim, para enviar a um dispositivo que nem sempre esta pronto para aceitar 
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dados, a interface PIO pode apresentar dados em uma porta de salda e esperar que o dispositivo devolva um pulso 
informando que aceitou os dados e quer mais. A logica necessaria para amostrar tais pulsos e torna-los disponlveis 
para a CPU inclui um sinal de pronto e mais uma fila de registradores de 8 bits para cada porta de salda. 

Pelo diagrama funcional da interface PIO, podemos ver que, alem dos 24 pinos para as tres portas, ela tern oito 
linhas que se conectam diretamente com o barramento de dados, uma linha de selegao de chip (chip select ), linhas de 
leitura e escrita, duas linhas de enderego e uma para reiniciar o chip. As duas linhas de enderego selecionam um dos 
quatro registradores internos correspondentes as portas A, B, C e ao registrador de configuragao de porta. Em geral, as 
duas linhas de enderego estao conectadas aos bits de ordem baixa do barramento de enderego. A linha de selegao de 
chip permite que a interface PIO de 24 bits seja combinada para formar interfaces PIO maiores, acrescentando outras 
linhas de enderego e usando-as para selecionar a interface PIO apropriada, ativando sua linha de selegao de chip. 

3.7.2 Decodificacao de endereco 

Ate agora fomos propositalmente superficiais sobre como a selegao do chip e ativada na memoria e nos chips 
de E/S que ja vimos. Agora, e hora de examinar com mais cuidado como isso e feito. Vamos considerar um com- 
putador embutido simples de 16 bits que consiste em uma CPU, uma EPROM de 2 KB x 8 bytes para o programa, 
uma RAM de 2 KB x 8 bytes para os dados e uma interface PIO. Esse pequeno sistema pode ser usado como 
um prototipo para o cerebro de um brinquedo barato ou um eletrodomestico simples. Uma vez em produgao, a 
EPROM poderia ser substitulda por uma ROM. 

A interface PIO pode ser selecionada de um entre dois modos: como um verdadeiro dispositivo de E/S 
ou como parte da memoria. Se optarmos por usa-la como um dispositivo de E/S, entao devemos seleciona-la 
usando uma linha de barramento expllcita que indica que um dispositivo de E/S esta sendo referenciado, e nao 
a memoria. Se usarmos a outra abordagem, E/S mapeada para a memoria, entao temos de lhe designar 4 bytes 
do espago de memoria para as tres portas e o registrador de controle. A escolha e, de certa forma, arbitraria. 
Escolheremos E/S mapeada para a memoria porque ela ilustra alguns aspectos interessantes da interface de E/S. 

A EPROM necessita de 2 KB de espago de enderego, a RAM tambem precisa de 2 K de espago de enderego e 
a PIO precisa de 4 bytes. Como o espago de enderego de nosso exemplo e 64 K, temos de escolher onde colocar 
os tres dispositivos. Uma opgao posslvel e mostrada na Figura 3.60. A EPROM ocupa enderegos ate 2 K, a RAM 
ocupa enderegos de 32 KB a 34 KB e a PIO ocupa os 4 bytes mais altos do espago de enderego, 65.532 a 65.535. 
Do ponto de vista do programador, nao faz diferenga quais enderegos sao usados; contudo, isso nao acontece 
quando se trata da interface. Se tivessemos optado por enderegar a PIO via espago de E/S, ela nao precisaria de 
nenhum enderego de memoria, mas precisaria de quatro espagos de enderego de E/S. 

Com as designagoes de enderego da Figura 3.60, a EPROM deve ser selecionada por quaisquer enderegos de 
memoria de 16 bits da forma OOOOOxxxxxxxxxxx (binario). Em outras palavras, qualquer enderego de memoria 
cujos 5 bits de ordem aha sao todos Os cai na parte inferior da memoria de 2 KB, portanto, na EPROM. Por isso, 
a selegao de chip da EPROM poderia ser ligada a um comparador de 5 bits, com uma de suas entradas perma- 
nentemente ligada a 00000. 

Uma maneira melhor de conseguir o mesmo efeito e usar uma porta OR de cinco entradas com as cinco 
entradas ligadas as linhas de enderego All a A15. Se, e somente se, todas a cinco linhas forem 0, a salda sera 0, 


Figura 3.60 Localizacao da EPROM, RAM e PIO em nosso espaco de endereco de 64 KB. 
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o que ativa cs (que e ativado baixo). Esse metodo de enderegamento e ilustrado na Figura 3.61(a) e e chamado 
decodificagao de enderego completo. 

O mesmo princlpio pode ser usado para a RAM. Contudo, a RAM deve responder a enderegos binarios 
da forma lOOOOxxxxxxxxxxx, portanto, e preciso um inversor adicional, como mostra a figura. A decodifica¬ 
gao de enderegos PIO e um pouco mais complicada, porque e selecionada pelos quatro enderegos da forma 
llllllllllllllxx. Um posslvel circuito que assegure cs so quando o enderego correto aparecer no barramento 
de enderego e mostrado na figura. Ele usa duas portas nand de oito entradas para alimentar uma porta or. 

Contudo, se o computador de fato tiver apenas uma CPU, dois chips de memoria e a PIO, podemos usar 
um truque para conseguir uma decodificagao de enderego muito mais simples. Esse truque se baseia no fato de 
que todos os enderegos da EPROM, e somente enderegos da EPROM, tern um 0 no bit de ordem alta, ais. Por 
conseguinte, basta ligar cs a ais diretamente, como mostra a Figura 3.61(b). 


Figura 3.61 (a) Decodificacao total de endereco. (b) Decodificacao parcial de endereco. 
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Nesse ponto, a decisao de colocar a RAM em 8000H pode parecer muito menos arbitraria. A decodifi¬ 
cagao da RAM pode ser feita observando que somente enderegos validos da forma lOxxxxxxxxxxxxxx estao 
na RAM, portanto, 2 bits de decodificagao sao suficientes. De modo semelhante, qualquer enderego que 
comece com 11 deve ser um enderego PIO. Agora, a logica completa de decodificagao sao duas portas nand 
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A logica de decodificagao de enderego da Figura 3.61(b) e denominada decodificagao parcial de ende- 
rego, porque nao sao usados os enderegos completos. Ela tem essa propriedade: uma leitura dos enderegos 
0001000000000000, 0001100000000000 ou 0010000000000000 dara o mesmo resultado. Na verdade, todo ende- 
rego na metade inferior do espago de enderego selecionara a EPROM. Como os enderegos extras nao sao usados, 
nao ha dano algum, mas se estivermos projetando um computador que podera ser expandido no futuro (o que e 
improvavel no caso de um brinquedo), devemos evitar a decodificagao parcial porque ela ocupa muito espago de 
enderego. 

Outra tecnica comum de decodificagao de enderego e usar um decodificador como o mostrado na Figura 
3.13. Conectando as tres entradas as tres linhas de enderego de ordem alta, obtemos oito saldas correspondentes 
aos enderegos nos primeiros 8 K, nos 8 K seguintes e assim por diante. Para um computador com oito RAMs, cada 
uma com 8 K x 8, um chip como esse fornece decodificagao completa. Para um computador com oito chips de 
memoria de 2 K x 8, um unico decodificador tambem e suficiente, contanto que cada um dos chips de memoria 
esteja localizado em porgoes distintas de 8 KB do espago de enderego. (Lembre-se de que observamos anterior- 
mente que a posigao dos chips de memoria e E/S dentro do espago de enderegos tem importancia.) 


3.8 Resumo 

Computadores sao construldos com base em chips de circuito integrado que contem minusculos elementos 
comutadores denominados portas. As portas mais comuns sao and, or, nand, nor e not. Circuitos simples podem 
ser montados ao se combinar diretamente portas individuais. 

Circuitos mais complexos sao multiplexadores, demultiplexadores, codificadores, decodificadores, deslo- 
cadores e ULAs. Fungoes booleanas arbitrarias podem ser programadas usando um FPGA. Se forem necessarias 
muitas fungoes booleanas, os FPGAs costumam ser mais eficientes. As leis da algebra booleana podem ser usadas 
para transformar circuitos de uma forma para outra. Em muitos casos, e posslvel produzir circuitos mais econo- 
micos dessa maneira. 

A aritmetica de computadores e efetuada por somadores. Um somador completo de um so bit pode ser cons- 
truldo usando dois meios-somadores. Um somador para uma palavra multibit pode ser construldo com a conexao 
de varios somadores completos de tal modo que permita o vai-um para seu vizinho da esquerda. 

Os componentes de memorias (estaticas) sao latches e flip-flops, cada um dos quais pode armazenar um bit de 
informagao. Esses bits podem ser combinados linearmente formando latches octais e flip-flops, ou por logaritmos 
formando memorias completas que usam palavras. Ha memorias de varios tipos: RAM, ROM, PROM, EPROM, 
EEPROM e flash. RAMs estaticas nao precisam ser renovadas; elas mantem seus valores armazenados enquanto 
a energia estiver ligada. RAMs dinamicas, por outro lado, devem ser renovadas periodicamente para compensar a 
fuga de corrente dos pequenos capacitores do chip. 

Os componentes de um sistema de computador sao conectados por barramentos. Muitos pinos - nao todos - 
de um chip de CPU tlpico comandam diretamente uma linha de barramento. Tais linhas podem ser divididas 
em linhas de enderego, de dados e de controle. Barramentos slncronos sao comandados por um clock mestre. 
Barramentos asslncronos usam trocas completas para sincronizar o escravo com o mestre. 

O Core i7 e um exemplo de uma CPU moderna. Sistemas modernos que usam esse chip tem um barramento 
de memoria, um barramento PCIe e um barramento USB. A interconexao PCIe e o modo mais comum de conectar 
as partes internas de um computador em altas velocidades. A ARM tambem e uma CPU moderna de alto nlvel, 
mas e voltada para sistemas embutidos e dispositivos moveis, onde o baixo consumo de energia e importante. O 
Atmel ATmegal68 e um exemplo de um chip de baixo prego para aparelhos pequenos, baratos, e muitas outras 
aplicagoes senslveis ao prego. 

Comutadores, luzes, impressoras e muitos outros dispositivos de E/S podem fazer interface com computadores 
usando interfaces de E/S paralela. Esses chips podem ser configurados como parte do espago de E/S ou do espago de 
memoria, conforme a necessidade. Eles podem ser total ou parcialmente decodificados, dependendo da aplicagao. 
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Problemas 

1. Circuitos analogicos estao sujeitos a ruido que pode 
distorcer sua salda. Os circuitos digitais sao imunes 
ao ruido? Discuta sua resposta. 

2. Um especialista em logica entra em uma lancho- 
nete drive-in e diz: “Quero um hamburguer ou um 
cachorro-quente e batatas fritas”. Infelizmente, o 
cozinheiro nao sabe (ou nao se importa) se “e” tern 
precedencia sobre “ou”. Para ele, tanto faz uma ou 
outra interpretagao. Quais dos seguintes casos sao 
interpretagoes validas do pedido? 

a. Apenas um hamburguer. 

b. Apenas um cachorro-quente. 

c. Apenas batatas fritas. 

d. Um cachorro-quente e batatas fritas. 

e. Um hamburguer e batatas fritas. 

f. Um cachorro-quente e um hamburguer. 

g. Todo os tres. 

h. Nada - o especialista em logica passa fome por ser 
um espertinho. 

3. Um missionario perdido no sul da California para 
em um entroncamento da rodovia. Ele sabe que duas 
gangues de motociclistas frequentam a area; uma 
delas sempre diz a verdade e a outra sempre mente. 
Ele quer saber qual estrada leva a Disneylandia. Que 
pergunta deve fazer? 

4. Use a tabela verdade para mostrar que X = (X and Y) 
OR (X AND NOT Y). 

5. Existem quatro fungoes booleanas de uma unica 
variavel e 16 fungoes de duas variaveis. Quantas 
fungoes de tres variaveis existem? Eden variaveis? 

6. Existem quatro fungoes booleanas de uma unica 
variavel e 16 fungoes de duas variaveis. Quantas fun¬ 
goes de quatro variaveis existem? 

7. Mostre como a fungao and pode ser construlda com 
base em duas portas nand. 

8. Usando o chip multiplexador de tres variaveis da 
Figura 3.12, execute uma fungao cuja salda e pari- 
dade das entradas, isto e, a salda e 1 se, e somente se, 
um numero par de entradas for 1. 

9. Ponha seu “capacete de racioclnio”. O chip mul¬ 
tiplexador de tres variaveis da Figura 3.12 pode 
calcular uma fungao arbitraria de quatro variaveis 
booleanas. Descreva como e, a tltulo de exemplo, 
desenhe o diagrama logico para a fungao que eOsea 
palavra inglesa para a fila da tabela verdade tiver um 
numero par de letras, e 1 se tiver um numero Impar 
de letras (por exemplo, 0000 = zero = quatro letras 
—» 0; 0111 = seven = cinco letras —» 1; 1101 = thirteen 
= oito letras —» 0). Dica: se denominarmos a quarta 


entrada variavel D, as oito linhas de entrada podem 
ser ligadas a V cc , terra, D ou D. 

10. Desenhe o diagrama logico para um codificador de 
2 bits, um circuito com quatro linhas de entrada, 
exatamente uma das quais e alta em qualquer instan- 
te dado, e duas linhas de salda cujo valor binario de 
2 bits informa qual entrada e alta. 

11. Desenhe o diagrama logico para um demultiplexador 
de 2 bits, um circuito cuja unica linha de entrada 
e direcionada para uma das quatro linhas de salda 
dependendo do estado das duas linhas de controle. 

12. O que esse circuito faz? 



13. Um chip comum e um somador de 4 bits. Quatro 
desses chips podem ser conectados para formar um 
somador de 16 bits. Quantos pinos voce espera que 
tenha o chip do somador de 4 bits? Por que? 

14. Um somador de bits pode ser construldo fazendo um 
arranjo em cascata de n somadores completos em 
serie com o vem-um no estagio i, Q, vindo da salda 
o estagio i - 1. O vem-um para o estagio 0, Co, e 0. 
Se cada estagio levar T nanossegundos para produzir 
sua soma e vai-um, o vem-um para o estagio i nao 
sera valido ate iT nanossegundos apos o inlcio da 
adigao. Para n grande, o tempo requerido para o vai- 
-um fazer o transporte (ripple) ate o estagio de ordem 
alta pode ser inaceitavelmente longo. Projete um 
somador que funcione com mais rapidez. Dica: cada 
Q pode ser expresso em termos dos bits de operando 
Aj _ i e B t _ i, bem como do vai-um Q _ i. Usando essa 
relagao, e posslvel expressar Q como uma fungao das 
entradas para os estagios 0 a i - 1, de modo que todos 
os vai-um possam ser gerados simultaneamente. 

15. Vamos admitir que todas as portas da Figura 3.18 
tenham um atraso de propagagao de 1 ns e que 
podemos ignorar todos os outros atrasos. Qual o 
menor tempo para esse circuito ter certeza de que um 
bit de salda e valido? 

16. A ULA da Figura 3.19 e capaz de fazer adigoes de 
complemento 2 de oito bits. Ela tambem pode fazer 
subtragoes de complemento 2? Se puder, explique 
como. Caso contrario, modifique-a para que possa 
efetuar subtragoes. 
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17. Uma ULA de 16 bits e composta de 16 ULAs de 1 
bit, cada uma com um tempo de adigao de 10 ns. 
Se houver 1 ns adicional de atraso de propagagao de 
uma ULA para a seguinte, quanto tempo leva para 
aparecer o resultado de uma soma de 16 bits? 

18. As vezes, e util que uma ULA de 8 bits como a da 
Figura 3.19 gere a constante -1 como saida. Proponha 
dois modos para fazer isso. Especifique os valores dos 
seis sinais de controle para cada um deles. 

19. Qual e o estado quiescente das entradas S e R para 
um latch SR composto de duas portas nand? 

20. O circuito da Figura 3.25 e um flip-flop que e dis- 
parado na borda ascendente do clock. Modifique esse 
circuito para produzir um flip-flop que e disparado 
na borda descendente. 

21. A memoria 4 x 3 da Figura 3.28 usa 22 portas and 
e tres portas or. Se o circuito tivesse de ser expan¬ 
dido para 256 x 8, quantas portas de cada seriam 
necessarias? 

22. Para ajudar a pagar o novo computador pessoal que 
comprou, voce esta prestando consultoria a novos 
fabricantes de chips SSL Um de seus clientes esta 
pensando em produzir um chip que contem 4 flip- 
-flops D, cada um contendo Q e tambem Q, a pedido 
de um cliente potencialmente importante. O projeto 
proposto agrupa todos os quatro sinais de clock , tam¬ 
bem a pedido. Nao ha preset nem clear. Sua tarefa e 
fazer uma avaliagao profissional do projeto. 

23. A medida que cada vez mais memoria e espremida 
em um unico chip, o numero de pinos necessarios 
para enderega-la tambem aumenta. Muitas vezes, 
e inconveniente ter grandes numeros de pinos 
de enderego em um chip. Proponha um meio de 
enderegar 2 n palavras de memoria usando menos do 
que n pinos. 

24. Um computador com um barramento de dados de 32 
bits de largura usa chips de memoria RAM dinamica 
de 1 M x 1. Qual e a menor memoria (em bytes) que 
esse computador pode ter? 

25. Referindo-nos ao diagrama temporal da Figura 3.38, 
suponha que voce desacelerou o relogio para um 
perlodo de 20 ns em vez de 10 ns, como mostra a 
figura, mas que as restrigoes de temporizagao per- 
maneceram inalteradas. Na pior das hipoteses, quanto 
tempo a memoria teria para colocar os dados no bar¬ 
ramento durante T 3 apos mreq estar ativado? 

26. Novamente com referenda a Figura 3.38, suponha 
que o clock permaneceu a 100 MHz, mas T D s foi 
aumentado para 4 ns. Poderiam ser usados chips de 
memoria de 10 ns? 

27. Na Figura 3.38(b), T ML e especificado para ser no 
minimo 2 nanossegundos. Voce pode imaginar um 
chip no qual ele seja negativo? Especificamente, a 


CPU poderia ativar mreq antes de o enderego estar 
estavel? Por que ou por que nao? 

28. Considere que a transference de bloco da Figura 
3.42 foi realizada no barramento da Figura 3.38. 
Quanto mais largura de banda obtemos usando uma 
transference de bloco em comparagao com trans¬ 
ferences individuals para blocos longos? Agora, 
considere que a largura do barramento e 32 bits, e 
nao 8 bits. Responda a pergunta outra vez. 

29. Indique os tempos de transigao das linhas de 
enderego da Figura 3.39 como T A i e T A 2 , e os tempos 
de transigao de mreq como T MRE qi e T MRE q 2 e assim 
por diante. Anote todas as desigualdades implicadas 
pela troca completa. 

30. Chips multicore, com varias CPUs no mesmo subs- 
trato, estao se tornando populares. Que vantagens 
elas tern em relagao a um sistema consistindo de 
varios PCs conectados por uma Ethernet? 

31. Por que os chips multicore apareceram de repente? 
Existem fatores tecnologicos que tenham preparado 
o caminho para eles? A lei de Moore tern alguma 
influencia aqui? 

32. Qual e a diferenga entre o barramento de memoria e 
o barramento PCI? 

33. A maioria dos barramentos de 32 bits permite leitu- 
ras e escritas de 16 bits. Ha alguma ambiguidade 
sobre onde colocar os dados? Discuta. 

34. Muitas CPUs tern um tipo especial de ciclo de barra¬ 
mento para reconhecimento de interrupgao. Por que? 

35. Um computador de 32 bits com um barramento de 
400 MHz requer quatro ciclos para ler uma palavra 
de 32 bits. Que largura de banda do barramento a 
CPU consome na pior das hipoteses, ou seja, con- 
siderando leituras ou escritas de ponta a ponta o 
tempo inteiro? 

36. Um computador de 64 bits com um barramento de 
400 MHz requer quatro ciclos para ler uma palavra 
de 64 bits. Que largura de banda do barramento a 
CPU consome na pior das hipoteses, ou seja, con- 
siderando leituras ou escritas de ponta a ponta o 
tempo inteiro? 

37. Uma CPU de 32 bits com linhas de enderego A2-A31 
requer que todas as references a memoria sejam alinha- 
das. Is to e, palavras tern de ser enderegadas em multiplos 
de 4 bytes, meias-palavras tern de ser enderegadas em 
bytes pares. Os bytes podem estar em qualquer lugar. 
Ha quantas combinagoes legais para leituras de memoria 
e quantos pinos sao necessarios para expressa-las? De 
duas respostas e justifique cada uma com um caso. 

38. Chips de CPU modernos possuem um, dois ou ate 
mesmo tres nlveis de cache no chip. Por que sao 
necessarios varios niveis de cachel 
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39. Suponha que uma CPU tenha uma cache de nivel 1 
e uma de mvel 2, com tempos de acesso de 1 ns e 2 
ns, respectivamente. O tempo de acesso a memoria 
principal e 10 ns. Se 20% dos acessos resultarem 
em presenga na cache de nivel 1 e 60% dos acessos 
resultarem em presenga na cache de nivel 2, qual e o 
tempo medio de acesso? 

40. Calcule a largura de banda de barramento necessaria 
para apresentar um filme em cores (1.280 x 960) a 
30 quadros por segundo. Considere que os dados 
devam passar duas vezes pelo barramento, uma vez do 
CD-ROM para a memoria e uma vez da memoria para 
a tela. 

41. Qual dos sinais da Figura 3.55 nao e estritamente 
necessario para o funcionamento do protocolo de 
barramento? 

42. Um sistema PCI Express tern enlaces de 10 Mbps 
(capacidade bruta). Quantos fios de sinal sao 
necessarios em cada diregao para operagao 16x? 
Qual e a capacidade bruta em cada diregao? Qual e a 
capacidade liquida em cada diregao? 

43. Um computador tern instrugoes que requerem dois 
ciclos de barramento cada: um para buscar a instru- 
gao e um para buscar os dados. Cada ciclo de bar¬ 
ramento leva 10 ns e cada instrugao leva 20 ns (isto 
e, o tempo de processamento interno e desprezivel). 
O computador tambem tern um disco com 2.048 
setores de 512 bytes por trilha. O tempo de rotagao 
do disco e 5 ms. A que porcentagem de sua veloci- 
dade normal o computador e reduzido durante uma 
transference DMA se cada transference DMA de 32 
bits leva um ciclo de barramento? 

44. A carga util maxima de um pacote de dados isocrono 
no barramento USB e 1.023 bytes. Supondo que um 


dispositivo pode enviar so um pacote de dados por 
quadro, qual e a maxima largura de banda para um 
unico dispositivo isocrono? 

45. Que efeito causaria o acrescimo de uma terceira linha 
de entrada sobre uma porta nand selecionando a PIO 
da Figura 3.61(b) se essa nova linha fosse conectada 
a Ai3? 

46. Escreva um programa para simular o comporta- 
mento de uma matriz m x n de portas nand com 
duas entradas. Esse circuito, contido em um chip, 
tern j pinos de entrada e k pinos de saida. Os valores 
de j, k, m en sao parametros da simulagao em tempo 
de compilagao. O programa deve iniciar lendo em 
uma “lista de fiagao” onde cada fio especifica uma 
entrada e uma saida. Uma entrada e um dos j pinos 
de entrada ou a saida de alguma porta nand. Uma 
saida ou e um dos k pinos de saida ou uma entrada 
para alguma porta nand. Entradas nao usadas sao 1 
logico. Apos ler a lista de fiagao, o programa deve 
imprimir a saida para cada uma das 2 j entradas pos- 
siveis. Chips de porta vetorial como esse sao muito 
usados para colocar circuitos sob encomenda em 
um chip porque a maior parte do trabalho (deposi- 
tar o arranjo vetorial no chip) e independente do 
circuito a ser executado. Somente a fiagao e especi¬ 
fica para cada projeto. 

47. Escreva um programa, na sua linguagem de 
programagao favorita, para ler duas expressoes 
booleanas quaisquer e verificar se elas represen- 
tam a mesma fungao. A linguagem de entrada deve 
incluir letras unicas, como variaveis booleanas, ope- 
randos and, or e not, e parenteses. Cada expressao 
deve caber em uma linha de entrada. O programa 
deve calcular tabelas verdade para ambas as fungoes 
e compara-las. 





0 nivel de microarquitetura 


O nivel acima do logico digital e o nivel de microarquitetura. Sua fungao e executar o nivel ISA (Instruction 
Set Architecture - arquitetura do conjunto de instrugoes) acima dele, como ilustrado na Figura 1.2. O 
projeto do nivel de microarquitetura depende da ISA que esta sendo implementada, bem como das metas 
de custo e desempenho do computador. Muitas ISAs modernas, em particular projetos RISC, tern instrugoes simples 
que normalmente podem ser executadas em um unico ciclo de clock. ISAs mais complexas, como a Core i7, podem 
exigir muitos ciclos para executar uma unica instrugao. Executar uma instrugao pode requerer localizar os operan- 
dos na memoria, ler esses operandos e armazenar resultados de volta na memoria. A sequencia de operagoes dentro 
de uma unica instrugao muitas vezes leva a uma abordagem de controle diferente da adotada para ISAs simples. 


4.1 Um exemplo de microarquitetura 

O ideal seria que nos apresentassemos este topico explicando os principios gerais do projeto de microar¬ 
quitetura. Infelizmente, nao ha principios gerais; cada microarquitetura e um caso especial. Por conseguinte, 
resolvemos discutir um exemplo detalhado. Para nossa ISA que servira de exemplo, escolhemos um subconjunto 
da Java Virtual Machine, como prometemos no Capltulo 1. Esse subconjunto contem somente instrugoes com 
inteiros, portanto, nos o denominamos IJVM para enfatizar que ele trata somente de inteiros. 

Comegaremos pela descrigao da microarquitetura sobre a qual realizaremos a IJVM, arquitetura que tern 
algumas instrugoes complexas. Muitas dessas arquiteturas costumam ser executadas ao se recorrer a microprogra- 
magao, como discutimos no Capltulo 1. Embora a IJVM seja pequena, e um bom ponto de partida para descrever 
o controle e a sequencia de instrugoes. 
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Nossa microarquitetura contera um microprograma (em ROM) cuja tarefa e buscar, decodificar e executar instrugoes 
IJVM. Nao podemos usar o interpretador Oracle JVM para o microprograma porque precisamos de um microprograma 
diminuto, que comande com eficiencia portas individuais no hardware propriamente dito. Por comparagao, o interpreta¬ 
dor Oracle JVM foi escrito em C por questao de portabilidade, e nao pode controlar o hardware de forma alguma. 

Como o hardware utilizado consiste apenas nos componentes basicos descritos no Capltulo 3, em teoria, se 
o leitor entender completamente esse capltulo, devera estar habilitado a sair e comprar uma sacola de transistores 
e montar esse subconjunto da maquina JVM. Os estudantes que conseguirem executar essa tarefa com sucesso 
ganharao creditos extras (e um exame psiquiatrico completo). 

Um modelo conveniente para o projeto de microarquitetura e pensar no projeto como um problema de 
programagao no qual cada instrugao no nivel ISA e uma fungao a ser chamada por um programa mestre. Nesse 
modelo, o programa mestre e um lago simples, sem fim, que determina uma fungao a ser invocada, chama a fun¬ 
gao e entao comega de novo, algo muito parecido com a Figura 2.3. 

O microprograma tern um conjunto de variaveis denominado estado do computador, que pode ser acessado 
por todas as fungoes. Cada fungao altera ao menos algumas das variaveis que compoem o estado. Por exemplo, 
o contador de programa (Program Counter - PC) e parte do estado. Ele indica a localizagao da memoria que 
contem a proxima fungao (isto e, instrugao ISA) a ser executada. Durante a execugao de cada instrugao, o PC e 
incrementado para indicar a proxima instrugao a ser executada. 

Instrugoes IJVM sao curtas e faceis. Cada instrugao tern alguns campos, em geral um ou dois, e cada um 
deles tern alguma finalidade especlfica. O primeiro campo de toda instrugao e o opcode (abreviatura de operation 
code - codigo de operagao), que identifica a instrugao, informando se ela e um ADD ou um BRANCH, ou qualquer 
outra coisa. Muitas instrugoes tern um campo adicional que especifica o operando. Por exemplo, instrugoes que 
acessam uma variavel local precisam de um campo que identifique qual variavel. 

Esse modelo de execugao, as vezes denominado ciclo buscar-decodificar-executar, e util em termos abstratos 
e tambem pode ser a base para execugao de ISAs como a IJVM, isto e, que tenham instrugoes complexas. Logo 
adiante, descreveremos como ela funciona, qual e o aspecto da microarquitetura e como ela e controlada pelas 
microinstrugoes; cada uma delas controla o caminho de dados durante um ciclo. A lista de microinstrugoes forma 
o microprograma, que apresentaremos e discutiremos detalhadamente. 

4.1.1 0 caminho de dados 

O caminho de dados e a parte da CPU que contem a ULA, suas entradas e suas saldas. O caminho de dados 
de nossa microarquitetura de exemplo e mostrado na Figura 4.1. Embora tenha sido cuidadosamente otimizado 
para interpretar programas IJVM, ele guarda uma razoavel semelhanga com o caminho de dados usado na maioria 
das maquinas. Contem varios registradores de 32 bits, aos quais atribulmos nomes simbolicos como PC, SP e 
MDR. Embora alguns desses nomes sejam familiares, e importante entender que esses registradores sao acesslveis 
apenas no nivel de microarquitetura (pelo microprograma). Eles recebem esses nomes porque em geral contem 
um valor correspondente a variavel do mesmo nome na arquitetura do nivel de ISA. A maior parte dos regis¬ 
tradores pode dirigir seu conteudo para o barramento B. A saida da ULA comanda o deslocador e em seguida o 
barramento C, cujo valor pode ser escrito em um ou mais registradores ao mesmo tempo. Por enquanto, nao ha 
nenhum barramento A; incluiremos um mais adiante. 

A ULA e identica a mostrada nas figuras 3.18 e 3.19. Sua fungao e determinada por seis linhas de controle. O 
segmento de reta diagonal com rotulo “6” na Figura 4.1 indica que ha seis linhas de controle de ULA, a saber: F Q e 
F : para determinar a operagao da ULA; ENA e ENB para habilitar as entradas individualmente; INVA para inverter 
a entrada esquerda e INC para forgar um vai-um para o bit de ordem baixa, somando 1 ao resultado. Contudo, 
nem todas as 64 combinagoes de linhas de controle de ULA fazem algo de util. 

Algumas das combinagoes mais interessantes sao mostradas na Figura 4.2. Nem todas essas fungoes sao 
necessarias para a IJVM, mas, para a JVM completa, muitas delas viriam a calhar. Em muitos casos, ha varias 
possibilidades de conseguir o mesmo resultado. Nessa tabela, + significa “mais” aritmetico e - significa “menos” 
aritmetico; assim, por exemplo, -A significa o complemento de dois de A. 
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Figura 4.1 Caminho de dados da microarquitetura de exemplo usada neste capftulo. 



A ULA da Figura 4.1 precisa de duas entradas de dados: uma entrada esquerda (A) e uma entrada direita (B). Ligado 
a entrada esquerda esta um registrador de retengao, H. Ligado a entrada direita esta o barramento B, que pode ser carre- 
gado por cada uma de nove fontes, indicadas pelas nove setas cinza que chegam ate ele. Um projeto alternativo, com dois 
barramentos completos, tern um conjunto diferente de opgoes de projeto e sera discutido mais adiante neste capltulo. 

H pode ser carregado com a escolha de uma fungao da ULA que passe diretamente da entrada direita (vinda do 
barramento B) para a salda da ULA. Uma fungao desse tipo seria somar as entradas da ULA, porem, com ENA nega- 
do, de modo que a entrada esquerda e forgada a zero. Adicionar zero ao valor no barramento B resulta somente no 
valor no barramento B. Entao, esse resultado pode ser passado pelo deslocador sem modificagao e armazenado em H. 

Alem das fungoes citadas, duas outras linhas de controle podem ser usadas independentemente para con- 
trolar a salda da ULA. SLL8 (Shift Left Logical) desloca o conteudo para a esquerda por 1 byte, preenchendo os 
8 bits menos significativos com zeros. SRA1 (Shift Right Arithmetic) desloca o conteudo para a direita por 1 bit, 
deixando inalterado o bit mais significativo. 
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Figura 4.2 Combinacoes uteis de sinais de ULA e a funcao executada. 



E explicitamente posslvel ler e escrever o mesmo registrador em um unico ciclo. Por exemplo, e permitido 
colocar SP no barramento B, desativar a entrada esquerda da ULA, habilitar o sinal INC e armazenar o resultado 
em SP, desse modo incrementando SP em 1 (veja a oitava linha na Figura 4.2). Como um registrador pode ser 
lido e escrito no mesmo ciclo sem produzir lixo? A solugao e que leitura e escrita na verdade sao executadas em 
instantes diferentes dentro do ciclo. Quando um registrador e selecionado como a entrada direita da ULA, seu 
valor e colocado no barramento B no inlcio do ciclo e ali e mantido durante todo o ciclo. Depois, a ULA realiza 
seu trabalho, produzindo um resultado que passa pelo deslocador e entra no barramento C. Proximo ao final do 
ciclo, quando se sabe que as saldas da ULA e deslocador sao estaveis, um sinal de clock ativa o armazenamento do 
conteudo do barramento C e o passa para um ou mais dos registradores. Um deles pode perfeitamente ser aquele 
que forneceu sua salda ao barramento B. A temporizagao exata do caminho de dados possibilita ler e escrever o 
mesmo registrador em um unico ciclo, como descreveremos a seguir. 

• Temporizacao do caminho de dados 

A temporizagao desses eventos e mostrada na Figura 4.3. Um pulso curto e produzido no inlcio de cada 
ciclo de clock. Ele pode ser derivado do clock principal, como ilustra a Figura 3.20(c). Na borda descendente do 
pulso, os bits que comandarao todas as portas sao ajustados, o que leva um tempo finito e conhecido, Aw. Depois, 
o registrador necessario no barramento B e selecionado e conduzido ate este. Demora Ax para o valor ficar esta- 
vel. Entao, a ULA e o deslocador comegam a operar com dados validos. Apos outro Ay, as saldas da ULA e do 
deslocador estao estaveis. Apos um A^ adicional, os resultados se propagaram ao longo do barramento C ate os 
registradores, onde podem ser carregados na borda ascendente do proximo pulso. A carga deve ser acionada pela 
borda ascendente do proximo pulso e de forma rapida, de modo que, se alguns dos registradores de entrada forem 
alterados, o efeito nao sera sentido no barramento C ate muito tempo apos os registradores terem sido carregados. 
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Figura 4.3 Diagrama de temporizacao de um ciclo de caminho de dados. 

Registradores carregados 
Saida do instantaneamente do 

deslocador barramento C e da memoria 

Ciclo 1 estavel na borda ascendente do clock 



barramento B 


Tambem na borda ascendente do pulso, o registrador que comanda o barramento B para de faze-lo preparando- 
-se para o proximo ciclo. MPC, MIR e a memoria sao mencionados na figura; em breve, discutiremos seus papeis. 

E importante perceber que, ainda que nao haja nenhum elemento de armazenamento no caminho de dados, 
ha um tempo de propagagao finito por ele. Uma alteragao de valor no barramento B so provocara uma alteragao 
no barramento C apos um tempo finito (por causa dos atrasos finitos de cada etapa). Por conseguinte, mesmo que 
um armazenamento altere um dos registradores de entrada, o valor estara guardado em seguranga no registrador 
muito antes que o valor (agora incorreto) que esta sendo colocado no barramento B (ou H) possa alcangar a ULA. 

Fazer esse esquema funcionar requer rlgida temporizagao, um ciclo de clock longo, um tempo minimo de 
propagagao pela ULA conhecido e uma carga rapida dos registradores pelo barramento C. Contudo, com cuida- 
dosa engenharia, o caminho de dados pode ser projetado de modo que funcione corretamente o tempo todo. Na 
verdade, as maquinas reais funcionam desse modo. 

Um modo um pouco diferente de ver o ciclo de caminho de dados e imagina-lo fragmentado em subciclos 
impllcitos. O inlcio do subciclo 1 e acionado pela borda descendente do clock. As atividades que ocorrem durante 
os subciclos sao mostradas a seguir, junto com as extensoes dos subciclos (entre parenteses). 

1. Os sinais de controle sao ajustados (Aw). 

2. Os registradores sao carregados no barramento B (Ax). 

3. Operagao da ULA e deslocador (Ay). 

4. Os resultados se propagam ao longo do barramento C de volta aos registradores (A^;). 

O intervalo de tempo apos A^ oferece alguma tolerancia, pois os tempos nao sao exatos. Na borda ascendente 
do proximo ciclo de clock , os resultados sao armazenados nos registradores. 

Dissemos que e melhor imaginar os subciclos como impHcitos. Com isso, queremos dizer que nao ha nenhum 
pulso de clock ou outros sinais expllcitos que indiquem a ULA quando operar ou que digam aos resultados que 
entrem no barramento C. Na verdade, a ULA e o deslocador funcionam o tempo todo. Contudo, suas entradas 
sao lixo ate um tempo Aw + Ax apos a borda descendente do clock. Do mesmo modo, suas saldas sao lixo ate que 
Aw + Ax + Ay tenha transcorrido apos a borda descendente do clock. Os unicos sinais expllcitos que comandam 
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o caminho de dados sao a borda descendente do clock, que inicia o ciclo do caminho de dados, e a borda ascen- 
dente, que carrega os registradores a partir do barramento C. As outras fronteiras de subciclos sao determinadas 
implicitamente pelos tempos de propagagao inerentes dos circuitos envolvidos. Cabe aos engenheiros de projeto 
garantir que o tempo Aw + Ax + Ay + Az venha suficientemente antes da borda ascendente do clock para fazer as 
cargas de registrador funcionarem de modo confiavel o tempo todo. 

• Operacao de memoria 

Nossa maquina tern dois modos diferentes de se comunicar com a memoria: uma porta de memoria de 32 
bits, enderegavel por palavra, e outra de 8 bits, enderegavel por byte. A porta de 32 bits e controlada por dois 
registradores, MAR (Memory Address Register - registrador de enderego de memoria) e MDR (Memory Data 
Register - registrador de dados de memoria), como mostra a Figura 4.1. A porta de 8 bits e controlada por um 
registrador, PC, que le 1 byte para os 8 bits de ordem baixa do MBR. Essa porta so pode ler dados da memoria; 
ela nao pode escrever dados na memoria. 

Cada um desses registradores (e todos os outros na Figura 4.1) e comandado por um ou dois sinais de con- 
trole. Uma seta clara sob um registrador indica um sinal de controle que habilita a salda do registrador para o 
barramento B. Visto que MAR nao tern conexao com o barramento B, nao tern sinal de habilitagao. H tambem nao 
tern esse sinal porque esta sempre habilitado, por ser a unica entrada esquerda posslvel da ULA. 

Uma seta negra sob um registrador indica um sinal de controle que escreve (isto e, carrega) o registrador a 
partir do barramento C. Uma vez que MBR nao pode ser carregado a partir do barramento C, nao tern um sinal 
de escrita (embora tenha dois outros sinais de habilitagao, descritos mais adiante). Para iniciar uma leitura ou 
escrita da memoria, os registradores de memoria adequados devem ser carregados e em seguida deve ser emitido 
um sinal de leitura ou escrita para a memoria (nao mostrado na Figura 4.1). 

MAR contem enderegos de palavras, de modo que os valores 0, 1, 2 etc. se referem a palavras consecutivas. PC 
contem enderegos de bytes, portanto, os valores 0, 1, 2 etc. se referem a bytes consecutivos. Assim, colocar um 2 em 
PC e iniciar uma leitura de memoria lera o byte 2 da memoria e o colocara nos 8 bits de ordem baixa do MBR. Colocar 
2 em MAR e iniciar uma leitura de memoria lera os bytes 8-11 (isto e, palavra 2) da memoria e os colocara em MDR. 

Essa diferenga de funcionalidade e necessaria porque MAR e PC serao usados para referenciar duas partes 
diferentes da memoria. A necessidade dessa distingao ficara mais clara adiante. Por enquanto, basta dizer que 
a combinagao MAR/M DR e usada para ler e escrever palavras de dados de nivel ISA e a combinagao PC/MBR e 
empregada para ler o programa executavel de nivel ISA, que consiste em uma sequencia de bytes. Todos os outros 
registradores que contem enderegos usam enderego de palavras, como o MAR. 

Na implementagao fisica propriamente dita, ha apenas uma memoria real que funciona com bytes. Permitir que 
MAR conte palavras (isso e necessario por causa do modo como a JVM e definida) enquanto a memoria fisica conta bytes 
depende de um truque simples. Quando o MAR e colocado no barramento de enderego, seus 32 bits nao sao mapeados 
diretamente para as 32 linhas de enderego, 0-31. Em vez disso, o bit 0 do MAR e ligado a linha 2 do barramento de 
enderego, o bit 1 do MAR e ligado a linha 3 do barramento de enderego e assim por diante. Os 2 bits superiores do MAR 
sao descartados, visto que so sao necessarios para enderegos de palavra acima de 2 32 , nenhum dos quais e valido para 
nossa maquina de 4 GB. Usando esse mapeamento, quando MAR e 1, o enderego 4 e colocado no barramento; quando 
MAR e 2, o enderego 8 e colocado no barramento e assim por diante. Esse estratagema esta ilustrado na Figura 4.4. 

Como ja mencionamos, dados lidos da memoria por uma porta de memoria de 8 bits sao devolvidos em MBR, 
um registrador de 8 bits. MBR pode ser copiado (gated) para o barramento B por um entre dois modos: com ou sem 
sinal. Quando e preciso o valor sem sinal, a palavra de 32 bits colocada no barramento B contem o valor MBR nos 8 
bits de ordem baixa e zeros nos 24 bits superiores. Valores sem sinal sao uteis para indexar em uma tabela ou quando 
um inteiro de 16 bits tern de ser montado a partir de 2 bytes consecutivos (sem sinal) na sequencia de instrugao. 

A outra opgao para converter o MBR de 8 bits em uma palavra de 32 bits e trata-lo como um valor com 
sinal entre -128 e +127 e usar esse valor para gerar uma palavra de 32 bits com o mesmo valor numerico. Essa 
conversao e feita duplicando o bit de sinal do MBR (o bit mais a esquerda) nas 24 posigoes superiores de bits do 
barramento B, um processo denominado extensao de sinal. Quando essa opgao e escolhida, os 24 bits superiores 
serao todos Os ou todos Is, dependendo do bit mais a esquerda do MBR de 8 bits ser um 0 ou um 1. 
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Figura 4.4 


Mapeamento dos bits em mar para o barramento de endereco. 


MAR de 32 bits (contagem em palavras) 



-V- 

Barramento de enderego de 32 bits (contagem em bytes) 


A opgao de converter o MBR de 8 bits em um valor de 32 bits com sinal ou sem sinal no barramento B e 
determinada por qual dos dois sinais de controle (setas claras sob MBR na Figura 4.1) for ativado. A necessidade 
dessas duas opgoes e a razao de haver duas setas presentes. A capacidade de fazer o MBR de 8 bits agir como uma 

fonte de 32 bits para o barramento B e indicada pelo retangulo tracejado na figura. 

4.1.2 Microinstrucoes 

Para controlar o caminho de dados da Figura 4.1 precisamos de 29 sinais, que podem ser divididos em cinco 
grupos funcionais, como descreveremos a seguir: 

• 9 sinais para controlar escrita de dados do barramento C para registradores. 

• 9 sinais para controlar habilitagao de registradores dirigidos ao barramento B para a entrada da ULA. 

• 8 sinais para controlar as fungoes da ULA e do deslocador. 

• 2 sinais (nao mostrados) para indicar leitura/escrita na memoria via MAR/M DR. 

• 1 sinal (nao mostrado) para indicar busca na memoria via PC/MBR. 

Os valores desses 29 sinais de controle especificam as operagoes para um ciclo do caminho de dados. Um ciclo 
consiste em copiar valores dos registradores para o barramento B, propagar os sinais pela ULA e pelo deslocador, 
dirigi-los ao barramento C e, por fim, escrever os resultados no registrador ou registradores adequados. Alem disso, 
se um sinal de leitura de dados da memoria for ativado, a operagao de memoria e iniciada no final do ciclo de cami¬ 
nho de dados, apos o MAR ter sido carregado. Os dados da memoria estao disponlveis no final do ciclo seguinte em 
MBR ouMDRe podem ser usados no ciclo que vem depois daquele. Em outras palavras, uma leitura de memoria em 
qualquer porta iniciada no final do ciclo k entrega dados que nao podem ser usados no ciclo k + 1, porem, somente 
no ciclo k + 2 ou mais tarde. 

Esse comportamento que parece anti-intuitivo e explicado pela Figura 4.3. Os sinais de controle da memoria 
nao sao gerados no ciclo de clock 1 ate que MAR e PC sejam carregados na borda ascendente do clock , proximo 
ao final do ciclo de clock 1. Consideraremos que a memoria coloca seus resultados nos barramentos de memoria 
dentro de um ciclo, portanto, que MBR e/ou MDR podem ser carregados na proxima borda ascendente do clock , 
junto com os outros registradores. 

Em outras palavras, carregamos MAR no final de um ciclo de caminho de dados e iniciamos a memoria logo 
apos. Por conseguinte, na realidade nao podemos esperar que os resultados de uma operagao de leitura estejam 
em MDR no inlcio do proximo ciclo, em especial se a largura do pulso de clock for curta. Nao ha tempo suficiente 
se a memoria demora um ciclo de clock. Um ciclo de caminho de dados deve ser interposto entre o inlcio de uma 
leitura de memoria e a utilizagao do resultado. E claro que outras operagoes podem ser executadas durante aquele 
ciclo, mas nao as que necessitam da palavra de memoria. 
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Supor que a memoria leva um ciclo para operar equivale a supor que a taxa de presenga na cache de nivel 1 
e 100%. Essa suposigao nunca e verdadeira, mas a complexidade introduzida por um tempo de ciclo de memoria 
de duragao variavel e mais do que o que queremos discutir aqui. 

Uma vez que MBR e MDR sao carregados na borda ascendente do clock, com todos os outros registradores, 
eles podem ser lidos durante ciclos em que esta sendo realizada uma nova leitura de memoria. Eles retornam aos 
valores antigos, ja que a leitura ainda nao teve tempo de sobrescreve-los. Aqui nao ha ambiguidade alguma; ate 
que novos valores sejam carregados em MBR e MDR na borda ascendente do clock , os precedentes ainda estao ali 
e podem ser usados. Note que e posslvel fazer leituras seguidas em dois ciclos consecutivos, uma vez que uma 
leitura leva apenas um. Alem disso, ambas as memorias podem funcionar ao mesmo tempo. Contudo, tentar ler 
e escrever o mesmo byte em simultaneo gera resultados indefinidos. 

Embora talvez seja desejavel escrever a salda no barramento C em mais de um registrador, nunca e aconselhavel 
habilitar mais de um por vez no barramento B. Na verdade, algumas implementagoes reais sofrerao dano flsico se isso 
for feito. Com um pequeno aumento no conjunto de circuitos podemos reduzir o numero de bits necessarios para 
selecionar entre as posslveis fontes para comandar o barramento B. Ha somente nove registradores de entrada possl- 
veis que podem comandar o barramento B (onde cada versao do MBR com sinal e sem sinal e contada como uma ver- 
sao individual). Portanto, podemos codificar as informagoes do barramento B em 4 bits e usar um decodificador para 
gerar os 16 sinais de controle, sete dos quais nao sao necessarios. Em um projeto comercial, os arquitetos seriam ata- 
cados por um desejo desesperado de se livrar de um dos registradores de modo que 3 bits fizessem o trabalho. Como 
academicos, podemos nos dar ao enorme luxo de desperdigar 1 bit para obter um projeto mais limpo e mais simples. 

Nesse ponto, podemos controlar o caminho de dados com 9 + 4 + 8 + 2+1 = 24 sinais, dal 24 bits. Contudo, 
esses 24 bits so controlam o caminho de dados por um ciclo. A segunda parte do controle e determinar o que fazer 
no ciclo seguinte. Para incluir isso no projeto do controlador, criaremos um forma to para descrever as operagoes a 
serem realizadas usando os 24 bits de controle mais dois campos adicionais: NEXT_ADDRESS e JAM. O conteudo 
de cada um desses campos sera discutido em breve. A Figura 4.5 mostra um forma to posslvel, dividido em seis 
grupos (listados abaixo da instrugao) e contendo os seguintes 36 sinais: 

Addr - Contem o enderego de uma microinstrugao potencial seguinte. 

JAM - Determina como a proxima microinstrugao e selecionada. 

ULA - Fungoes da ULA e do deslocador. 

C - Seleciona quais registradores sao escritos a partir do barramento C. 

Mem - Fungoes de memoria. 

B - Seleciona a fonte do barramento B; e codificado como mostrado. 

A ordem dos grupos e, em princlpio, arbitraria, embora na verdade a tenhamos escolhido com muito cuidado 
para minimizar cruzamentos de linhas na Figura 4.6. Cruzamentos de linhas em diagramas esquematicos como 
essa figura costumam corresponder a cruzamento de fios em chips, o que causa problemas em projetos bidimen- 
sionais, portanto, e melhor minimiza-los. 


Figura 4.5 


Formato da microinstrucao para a Mic-1 (descrita em breve adiante). 
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Figura 4.6 Diagrama de blocos completo de nossa microarquitetura de exemplo, a Mic-1. 



4.1.3 Controle de microinstrucao: a Mic-1 

Ate aqui, descrevemos como o caminho de dados e controlado, mas ainda nao explicamos como e decidido 
qual dos sinais de controle deve ser habilitado em cada ciclo. Isso e determinado por um sequenciador, que e 
responsavel por escalonar a sequencia de operagoes necessarias para a execugao de uma unica instrugao ISA. 

O sequenciador deve produzir dois tipos de informagao a cada ciclo: 

1. O estado de cada sinal de controle no sistema. 

2. O enderego da microinstrugao que deve ser executada em seguida. 
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A Figura 4.6 e um diagrama de blocos detalhado da microarquitetura completa de nossa maquina de exem- 
plo, que denominaremos Mic-1. Ela pode parecer imponente de inlcio, mas vale a pena estuda-la com cuidado. 
Quando voce entender totalmente cada retangulo e cada linha dessa figura, tera avangado bastante no entendi- 
mento do nivel de microarquitetura. O diagrama de blocos tern duas partes: o caminho de dados, a esquerda, que 
ja discutimos em detalhes, e a segao de controle, a direita, que estudaremos agora. 

O maior item e tambem o mais importante na parte do controle da maquina e uma memoria denominada 
armazenamento de controle. E conveniente imagina-la como uma memoria que contem o microprograma com- 
pleto, embora as vezes ele seja executado como um conjunto de portas logicas. Em geral, vamos nos referir a ele 
como o armazenamento de controle para evitar confusao com a memoria principal, acessada por meio de MBR e 
MDR. Contudo, em termos funcionais, o armazenamento de controle e uma memoria que apenas contem microins¬ 
trugoes em vez de instrugoes ISA. No caso da nossa maquina de exemplo, ele contem 512 palavras, cada uma con- 
sistindo em uma microinstrugao de 36 bits do tipo ilustrado na Figura 4.5. Na verdade, nem todas essas palavras 
sao necessarias, mas (por razoes que explicaremos em breve) precisamos de enderegos para 512 palavras distintas. 

Em um aspecto importante, o armazenamento de controle e bem diferente da memoria principal: instrugoes 
na memoria principal sao sempre executadas em ordem de enderego (exceto para os desvios); microinstrugoes 
nao sao. O ato de incrementar o contador de programa na Figura 2.3 expressa o fato de que a instrugao padrao 
( default ) a executar apos a instrugao corrente e a instrugao seguinte aquela corrente na memoria. Microprogramas 
precisam de mais flexibilidade (porque as sequencias de microinstrugoes tendem a ser curtas), e, portanto, nao 
costumam ter essa propriedade. Em vez disso, cada microinstrugao especifica explicitamente sua sucessora. 

Uma vez que, em termos funcionais, o armazenamento de controle e uma memoria (so de leitura), ele pre- 
cisa de seu proprio registrador de enderego de memoria e de seu proprio registrador de dados de memoria. Nao 
precisa ler nem escrever sinais porque esta sendo lido continuamente. Denominaremos o registrador de enderego 
de memoria do armazenamento de controle MPC (Microprogram Counter - contador de microprograma). Esse 
nome e ironico, ja que as localizagoes nele sao explicitamente nao ordenadas, portanto, o conceito de contagem 
nao e util (mas quern somos nos para discutir uma tradigao?). O registrador de dados de memoria e denominado 
MIR (Microinstruction Register - registrador de microinstrugao). Sua fungao e conter a microinstrugao corren¬ 
te, cujos bits comandam os sinais de controle que operam o caminho de dados. 

O registrador MIR na Figura 4.6 contem os mesmos seis grupos da Figura 4.5. Os grupos Addr e J (de JAM) 
controlam a selegao da microinstrugao seguinte e serao discutidos em breve. O grupo ULA contem os 8 bits que 
selecionam a fungao ULA e comandam o deslocador. Os bits C fazem os registradores individuais carregarem a 
salda da ULA vinda do barramento C. Os bits M controlam operagoes de memoria. 

Por fim, os ultimos 4 bits comandam o decodificador que determina o que entra no barramento B. Nesse caso, 
preferimos usar um decodificador padrao 4 para 16, mesmo que sejam requeridas apenas nove possibilidades. Em um 
projeto mais afinado, poderia ser usado um decodificador 4 para 9. Nesse caso, o compromisso e usar um circuito 
padrao que possa ser encontrado em uma biblioteca de circuitos em vez de projetar um circuito fabricado sob espe- 
cificagao. Usar o circuito padrao e mais simples e a probabilidade de introduzir bugs e menor. Construir seu proprio 
circuito usa menos area de chip, mas leva mais tempo para projetar e ha sempre a possibilidade de voce errar. 

A operagao da Figura 4.6 e a seguinte. No inlcio de cada ciclo de clock (a borda descendente na Figura 4.3), 
MIR e carregado a partir da palavra no armazenamento de controle apontada pelo MPC. O tempo de carga do MIR 
e indicado na figura por Aw. Se pensarmos em termos de subciclos, MIR e carregado durante o primeiro. 

Assim que a microinstrugao e estabelecida em MIR, os varios sinais se propagam para dentro do caminho de 
dados. Um registrador e copiado para o barramento B, a ULA sabe qual operagao realizar e a atividade e frenetica. 
Esse e o segundo subciclo. Apos um intervalo Aw + Ax a partir do inlcio do ciclo, as entradas da ULA estao estaveis. 

Apos mais um A y, tudo se acomoda e as saldas da ULA, N, Z e do deslocador estao estaveis. Entao, os valores 
N e Z sao salvos em um par d e flip-flops de 1 bit. Esses bits, como os registradores que sao carregados a partir do 
barramento C e na memoria, sao salvos na borda ascendente do clock , proximo ao final do ciclo do caminho de 
dados. A salda da ULA nao e serializada, mas apenas alimentada no deslocador. A atividade da ULA e do deslo¬ 
cador ocorre durante o subciclo 3. 

Apos um intervalo adicional, Az, a salda do deslocador alcangou os registradores via barramento C. Entao, 
estes podem ser carregados perto do final do ciclo (borda ascendente do pulso de clock na Figura 4.3). O subciclo 
4 consiste em carregar os registradores e flip-flops N e Z e termina um pouco apos a borda ascendente do clock , 
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quando todos os resultados foram salvos e os produtos das operagoes de memoria anteriores estao disponlveis e 
o MPC foi carregado. O processo continua ate alguem se entediar e desligar a maquina. 

Em paralelo com o comando do caminho de dados, o microprograma tern de determinar qual microinstru¬ 
gao executar em seguida, porque elas precisam ser executadas na ordem em que aparecem no armazenamento de 
controle. O calculo do enderego da proxima microinstrugao comega apos MIR ter sido carregado e estar estavel. 
Primeiro, o campo NEXT_ADDRESS de 9 bits e copiado para MPC. Enquanto essa copia esta ocorrendo, o campo 
JAM e inspecionado. Se tiver valor 000, nada mais e feito; quando a copia de NEXT_ADDRESS estiver conclulda, 
o MPC apontara a proxima microinstrugao. 

Se um ou mais dos bits JAM for 1, e preciso mais trabalho. Se JAMN estiver ativado, o flip-flop N de 1 bit sofre 
uma operagao OR com o bit de ordem alta do MPC. De modo semelhante, se JAMZ estiver ativado, e o flip-flop 
Z de 1 bit que passa pela operagao OR. Se ambos estiverem ajustados, ambos passam por OR. A razao de os flip- 
-flops N e Z serem necessarios e que, apos a borda ascendente do clock (enquanto o clock esta alto), o barramento 
B nao esta mais sendo comandado, portanto, as saldas da ULA nao podem mais ser tomadas como corretas. Salvar 
os flags de estado da ULA em N e Z torna os valores corretos disponlveis e estaveis para o calculo do MPC, nao 
importa o que esteja ocorrendo na ULA. 

Na Figura 4.6, a logica que faz tal calculo e denominada “bit alto”. A fungao booleana que ela calcula e 

F = (JAMZ AND Z) OR (JAMN AND N) OR NEXT_ADDRESS[8] 

Note que, em todos os casos, MPC so pode assumir um de dois valores posslveis: 

1. O valor de NEXT_ADDRESS. 

2. O valor de NEXT_ADDRESS com o bit de ordem alta que passa por uma operagao OR com 1. 


Nao existe nenhuma outra possibilidade. Se o bit de ordem alta de NEXT_ADDRESS ja for 1, usar JAMN ou 
JAMZ nao tern sentido. 

Note que, quando os bits JAM sao todos zeros, o enderego da proxima microinstrugao a ser executada e 
simplesmente o numero de 9 bits em seu campo NEXT_ADDRESS. Quando ou JAMN ou JAMZ e 1, ha dois 
sucessores potenciais: NEXT_ADDRESS e NEXT_ADDRESS com operagao OR com 0x100 (considerando que 
NEXT_ADDRESS < OxFF). (Note que Ox indica que o numero que vem em seguida esta em hexadecimal.) Esse 
ponto e ilustrado na Figura 4.7. A microinstrugao corrente, na localizagao 0x75, tern NEXT_ADDRESS = 0x92 
e JAMZ ajustado para 1. Por conseguinte, o proximo enderego da microinstrugao depende do bit Z armazenado 
durante a operagao de ULA anterior. Se o bit Z for 0, a proxima microinstrugao vem de 0x92. Se o bit Z for 1, a 
proxima microinstrugao vem de 0x192. 

O terceiro bit no campo JAM e JMPC. Se ele estiver ativado, os 8 bits MBR passam por uma operagao OR bit 
a bit com os 8 bits de ordem baixa do campo NEXT_ADDRESS que vem da microinstrugao corrente. O resultado e 
enviado a MPC. O retangulo com o rotulo “O” na Figura 4.6 faz uma OR de MBR com NEXT_ADDRESS se JMPC 
for 1, mas apenas passa NEXT_ADDRESS diretamente para MPC se JMPC for 0. Quando JMPC e 1, os 8 bits de 
ordem baixa de NEXT_ADDRESS em geral sao zero. O bit de ordem alta pode ser 0 ou 1, portanto, o valor de 
NEXT_ADDRESS usado com JMPC normalmente e 0x000 ou 0x100. A razao para usar as vezes 0x000 e as vezes 
0x100 sera discutida mais adiante. 

A capacidade de efetuar OR entre MBR e NEXT_ADDRESS e armazenar o resultado em MPC permite uma 
execugao eficiente de um desvio (jump) multivias. Note que qualquer um dos 256 enderegos pode ser especifica- 
do, determinado exclusivamente pelos bits presentes em MBR. Em uma utilizagao tlpica, MBR contem um codigo 
de operagao, que chamaremos de opcode , portanto, a utilizagao de JMPC resultara em uma selegao unica para a 
proxima microinstrugao a ser executada para todo opcode posslvel. Esse metodo e util para fazer desvios rapidos 
diretamente para a fungao correspondente ao opcode que acabou de ser buscado. 

Entender a temporizagao da maquina e crltico para o que vem a seguir, portanto, talvez valha a pena repeti- 
-la. Faremos isso em termos de subciclos, uma vez que e facil de visualizar, mas os unicos eventos de clock reais 
sao a borda descendente, que inicia o ciclo, e a borda ascendente, que carrega os registradores e os flip-flops N 
e Z. Favor consultar a Figura 4.3 mais uma vez. 
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Figura 4.7 Microinstrucao com jamz ajustado para 1 tem duas sucessoras potenciais. 
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Durante o subciclo 1, iniciado pela borda descendente do clock, MIR e carregado a partir do enderego con- 
tido em MPC no instante em questao. Durante o subciclo 2, os sinais de MIR se propagam e o barramento B e 
carregado a partir do registrador selecionado. Durante o subciclo 3, a ULA e o deslocador funcionam e produzem 
um resultado estavel. Durante o subciclo 4, os valores do barramento C, dos barramentos de memoria e da ULA 
tornam-se estaveis. Na borda ascendente do clock, os registradores sao carregados a partir do barramento C,flip- 
-flops N e Z sao carregados eMBReMDR obtem seus resultados da operagao de memoria iniciada no final do ciclo 
de caminho de dados anterior (se houver algum). Assim que o valor de MBR estiver disponlvel, MPC e carregado 
em preparagao para a proxima microins trugao. Assim, MPC obtem seu valor em algum instante durante o meio do 
intervalo quando o clock esta alto, mas apos MBR/MDR estarem prontos. Ele poderia ser ativado no nivel (em vez 
de ativado pela borda) ou ativado pela borda com um atraso fixo apos a borda ascendente do clock. O que real- 
mente importa e que MPC nao seja carregado ate que os registradores dos quais ele depende (MBR, N e Z) estejam 
prontos. Tao logo o clock caia, MPC pode enderegar o armazenamento de controle e um novo ciclo pode comegar. 

Note que cada ciclo e autossuficiente. Ele especifica o que ocorre no barramento B, o que a ULA e o deslo¬ 
cador tem de fazer, onde o barramento C deve ser armazenado e, por fim, qual deve ser o proximo valor de MPC. 

Vale a pena fazer uma observagao final sobre a Figura 4.6. Estamos tratando o MPC como um registrador 
propriamente dito, com 9 bits de capacidade de armazenamento, que e carregado enquanto o clock esta alto. 
Na realidade, nao ha necessidade alguma de um registrador ali. Todas as suas entradas podem ser alimentadas 
diretamente para o armazenamento de controle. Basta que elas estejam presentes no armazenamento de contro¬ 
le na borda descendente do clock quando MIR e selecionado e lido. Na verdade, nao ha necessidade alguma de 
armazena-las em MPC. Por essa razao, o MPC pode perfeitamente ser executado como um registrador virtual, que 
e apenas um lugar de reuniao para sinais, mais como se fosse um painel de conexao eletronico do que um regis¬ 
trador real. Transformar o MPC em um registrador virtual simplifica a temporizagao: agora, os eventos acontecem 
somente nas bordas descendentes e ascendentes do clock e em nenhum outro lugar. Porem, se for mais facil para 
voce imaginar um MPC como um registrador real, esse ponto de vista tambem e valido. 


4.2 Exemplo de ISA: IJVM 

Vamos continuar nosso exemplo introduzindo o nivel ISA da maquina a ser interpretado pelo microprogra- 
ma que e executado na microarquitetura da Figura 4.6 (IJVM). Por conveniencia, as vezes vamos nos referir a 
Instruction Set Architecture (ISA) como a macroarquitetura, para contrasta-la com a microarquitetura. Contudo, 
antes de descrever a IJVM, vamos fazer uma ligeira digressao com o intuito de motivagao. 

4.2.1 Pilhas 

Praticamente todas as linguagens de programagao trabalham com o conceito de procedimentos (metodos), 
que tem variaveis locais. Essas variaveis podem ser acessadas de dentro dos procedimentos, mas deixam de ser 
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acesslveis assim que o procedimento e devolvido. Portanto, surge a pergunta: “Em que lugar da memoria essas 
variaveis devem ser mantidas?”. 

A solugao mais simples, dar a cada variavel um enderego de memoria absoluto, nao funciona. O problema e 
que um procedimento pode chamar a si mesmo. Estudaremos esses procedimentos recursivos no Capltulo 5. Por 
enquanto, basta dizer que, se um procedimento for ativado - isto e, chamado - duas vezes, e imposslvel armaze- 
nar suas variaveis em localizagoes absolutas de memoria porque a segunda chamada ira interferir com a primeira. 

Em vez disso, e usada uma estrategia diferente. Uma area da memoria, denominada pilha, e reservada para 
variaveis, mas variaveis individual nao obtem enderegos absolutos nela. Em vez disso, um registrador, por exem- 
plo, LV, e preparado para apontar para a base das variaveis locais para o procedimento em questao. Na Figura 
4.8(a), um procedimento A, que tern variaveis locais al, al e a3, foi chamado, portanto, foi reservado armazena- 
mento para suas variaveis locais, comegando na localizagao de memoria apontada por LV. Outro registrador, SP, 
aponta para a palavra mais alta das variaveis locais de A. Se LV for 100 e as palavras tiverem 4 bytes, entao SP sera 
108. Variaveis sao referenciadas dando seu deslocamento (distancia) em relagao a LV. A estrutura de dados entre 
LV e SP (e incluindo ambas as palavras apontadas) e denominada quadro de variaveis locais de A. 


Figura 4.8 Utilizacao de uma pilha para armazenar variaveis locais. (a) Enquanto A esta ativo. (b) Apos A chamar B. (c) Apos B chamar 
C. (d) Apos Ce B retornarem e A chamar D. 
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Agora, vamos considerar o que acontece se A chamar outro procedimento, B. Onde deveriam ser armaze- 
nadas as quatro variaveis locais de B ( bl, b2, b3, b4 )? Resposta: na pilha, em cima das variaveis de A, conforme 
mostra a Figura 4.8(b). Observe que LV foi ajustado pela chamada de procedimento para que aponte para as 
variaveis locais de B em vez das de A. As variaveis locais de B podem ser referenciadas dando seu deslocamento 
em relagao a LV. De modo semelhante, se B chamar C, LV e SP sao ajustados novamente para alocar espago para 
as duas variaveis de C, como mostra a Figura 4.8(c). 

Quando C retorna, B torna-se ativo de novo e a pilha volta a ser ajustada para a Figura 4.8(b), de modo que 
LV agora aponta outra vez para as variaveis locais de B. Da mesma forma, quando B retorna, voltamos a situagao 
da Figura 4.8(a). Sob todas as condigoes, LV aponta para a base do quadro da pilha para o procedimento ativo no 
momento em questao e SP aponta para o topo do quadro da pilha. 

Agora, suponha que A chama D, que tern cinco variaveis locais. Essa e a situagao da Figura 4.8(d), na qual 
as variaveis locais de D usam a mesma memoria que as de B usaram, bem como parte das de C. Com essa orga- 
nizagao, a memoria so e alocada para procedimentos que estao ativos no momento em questao. Quando um 
procedimento retorna, a memoria usada por suas variaveis locais e liberada. 

Pilhas tern outra utilizagao alem de conter variaveis locais. Elas podem ser usadas para reter operandos 
durante o calculo de uma expressao aritmetica. Quando usada dessa maneira, a pilha e denominada pilha de 
operandos. Suponha, por exemplo, que, antes de chamar B, A tenha de calcular 

al = a2 + a3; 
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Um modo de efetuar essa soma e passar a2 para a pilha, como ilustra a Figura 4.9(a). Nesse caso, SP foi incre- 
mentado pelo numero de bytes em uma palavra, por exemplo, 4, e o primeiro operando foi armazenado no enderego 
agora apontado por SP. Em seguida, a3 e passada para a pilha, conforme mostra a Figura 4.9(b). (Como parte da 
notagao, usaremos uma fonte Helvetica para todos os fragmentos de programa, como fizemos anteriormente. Tambem 
usaremos essa fonte para opcodes em linguagem de montagem e registradores de maquina, mas, em texto corrente, 
variaveis de programa e procedimentos serao dados em italico. A diferenga e que nomes de variaveis de programas e 
nomes de procedimento sao escolhidos pelo usuario; nomes de opcodes e registradores vem com a maquina.) 


Figura 4.9 Utilizacao de uma pilha de operandos para efetuar um calculo aritmetico. 



(a) (b) (c) (d) 


Agora, o calculo propriamente dito pode ser feito executando uma instrugao que retira duas palavras da 
pilha, soma as duas e devolve o resultado para a pilha, conforme a Figura 4.9(c). Por fim, a palavra que esta no 
topo pode ser retirada da pilha e armazenada de novo na variavel local al, como ilustrado na Figura 4.9(d). 

Os quadros de variaveis locais e as pilhas de operandos podem ser misturados. Por exemplo, ao calcular uma 
expressao como x 2 +/(x), parte dela (por exemplo, x 2 ) pode estar em uma pilha de operandos quando a fungao/ e 
chamada. O resultado da fungao e deixado na pilha, em cima de x 2 , de modo que a proxima instrugao pode soma-la. 

Vale a pena observar que, enquanto todas as maquinas usam uma pilha para armazenar variaveis locais, nem 
todas usam uma pilha de operandos como essa para efetuar aritmetica. Na verdade, a maioria delas nao usa, mas 
a JVM e a IJVM trabalham assim, e e por isso que apresentamos aqui as operagoes com a pilha. Vamos estuda-las 
com mais detalhes no Capltulo 5. 

4.2.2 Modelo de memoria IJVM 

Agora, estamos prontos para estudar a arquitetura da IJVM. Em essencia, ela consiste em uma memoria que 
pode ser vista de dois modos: um arranjo de 4.294.967.296 bytes (4 GB) ou um arranjo de 1.073.741.824 pala¬ 
vras, cada uma consistindo em 4 bytes. Diferente da maioria das ISAs, a Java Virtual Machine (maquina virtual 
Java) nao deixa nenhum enderego absoluto de memoria diretamente visivel no nivel ISA, mas ha varios enderegos 
impllcitos que fornecem a base para um ponteiro. Instrugoes IJVM so podem acessar a memoria indexando a 
partir desses ponteiros. Em qualquer instante, as seguintes areas de memoria sao definidas: 

1. O conjunto de constantes. Essa area nao pode ser escrita por um programa IJVM e consiste em constan- 
tes, cadeias e ponteiros para outras areas da memoria que podem ser referenciadas. Ele e carregado 
quando o programa e trazido para a memoria e nao e alterado depois. Ha um registrador impllcito, 
CPP, que contem o enderego da primeira palavra do conjunto de constantes. 

2. O quadro de variaveis locais. Para cada invocagao de um metodo e alocada uma area para armazenar 
variaveis durante o tempo de vida da invocagao, denominada quadro de variaveis locais. No inlcio 
desse quadro estao os parametros (tambem denominados argumentos) com os quais o metodo foi 
invocado. O quadro de variaveis locais nao inclui a pilha de operandos, que e separada. Contudo, 
por questoes de eficiencia, nossa implementagao prefere executar a pilha de operandos logo acima do 
quadro de variaveis locais. Ha um registrador impllcito que contem o enderego da primeira localizagao 
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do quadro de variaveis locais. Nos o denominaremos LV. Os parametros passados na chamada do 
metodo sao armazenados no inlcio do quadro de variaveis locais. 

3. A pilha de operandos. E garantido que o quadro nao exceda certo tamanho, calculado com anteceden- 
cia pelo compilador Java. O espago da pilha de operandos e alocado diretamente acima do quadro de 
variaveis locais, como ilustrado na Figura 4.10. Em nossa implementagao, e conveniente imaginar a 
pilha de operandos como parte do quadro de variaveis locais. De qualquer modo, ha um registrador 
impllcito que contem o enderego da palavra do topo da pilha. Note que, diferente do CPP e do LV, esse 
ponteiro, SP, muda durante a execugao do metodo a medida que operandos sao passados para a pilha 
ou retirados dela. 

4. A area de metodo. Por fim, ha uma regiao da memoria que contem o programa, a qual nos referimos como a 
area de “texto” em um processo UNIX. Ha um registrador impllcito que contem o enderego da instrugao a ser 
buscada em seguida. Esse ponteiro e denominado contador de programa (Program Counter) ou PC. Diferente 
das outras regioes da memoria, a area de metodo e tratada como um vetor de bytes. 


Figura 4.10 
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E preciso esclarecer uma questao em relagao aos ponteiros. Os registradores CPP, LV e SP sao todos pon- 
teiros para palavras, nao para bytes , e sao deslocados pelo numero de palavras. Para o subconjunto de inteiros 
que escolhemos, todas as references a itens no conjunto de constantes, o quadro de variaveis locais e as pilhas 
sao palavras, e todos os deslocamentos usados para indexar esses quadros sao deslocamentos de palavras. Por 
exemplo, LV, LV + 1 e LV + 2 se referem as primeiras tres palavras do quadro de variaveis locais. Em comparagao, 
LV, LV + 4 e LV + 8 se referem a palavras em intervalos de quatro palavras (16 bytes). 

Ao contrario, PC contem um enderego de byte, e uma adigao ou subtragao ao PC altera o enderego por um 
numero de bytes, e nao por um numero de palavras. O enderegamento para PC e diferente dos outros e esse fato 
e aparente na porta de memoria especial fornecida para PC na Mic-1. Lembre-se de que a largura dessa porta e 
de apenas 1 byte. Incrementar o PC por um fator de um e iniciar uma leitura resulta em uma busca pelo proximo 
byte. Incrementar o SP por um fator de um e iniciar uma leitura resulta em uma busca pela proxima palavra. 

4.2.3 Conjunto de instrucoes da IJVM 

O conjunto de instrugoes da IJVM e mostrado na Figura 4.11. Cada instrugao consiste em um opcode e as 
vezes um operando, tal como um deslocamento de memoria ou uma constante. A primeira coluna da a codificagao 
hexadecimal da instrugao. A segunda da seu mnemonico em linguagem de montagem. A terceira da uma breve 
descrigao de seu efeito. 
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Figura 4.11 Conjunto de instrucoes da IJVM. Os operandos byte, const e i mum sao de 1 byte. Os operandos disp, index e offset sao 
de 2 bytes. 
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Sao fornecidas instrugoes para passar para a pilha uma palavra que pode vir de diversas fontes. Entre essas fontes 
estao o conjunto de constantes (LDC_W), o quadro de variaveis locais (ILOAD) e a propria instrugao (BIPUSH). Uma 
variavel tambem pode ser retirada da pilha e armazenada no quadro de variaveis locais (ISTORE). Duas operagoes 
aritmeticas (IADD e ISUB), bem como duas operagoes logicas booleanas (IAND e IOR), podem ser efetuadas usando 
as duas palavras de cima da pilha como operandos. Em todas as operagoes aritmeticas e logicas, duas palavras sao 
retiradas da pilha e o resultado e devolvido a ela. Sao fornecidas quatro instrugoes de desvio, uma incondicional 
(GOTO) e tres condicionais (IFEQ, IFLT e IFJCMPEQ). Todas as instrugoes de ramificagao, se tomadas, aj us tarn o 
valor de PC conforme o tamanho de seus deslocamentos (16 bits com sinal), que vem apos o opcode na instrugao. 
Esse deslocamento e adicionado ao enderego do opcode. Ha tambem instrugoes IJVM para trocar as duas palavras do 
topo da pilha uma pela outra (SWAP), duplicando a palavra do topo (DUP) e retirando-a (POP). 

Algumas instrugoes tern varios formatos, o que permite uma forma abreviada para versoes comumente usa- 
das. Na IJVM, inclulmos dois dos varios mecanismos que a JVM usa para fazer isso. Em um caso, ignoramos a 
forma abreviada em favor da mais geral. Em outro caso, mostramos como a instrugao prefixada WIDE pode ser 
usada para modificar a instrugao resultante. 

Por fim, ha uma instrugao (INVOKEVIRTUAL) para invocar (chamar) outro metodo e outra instrugao 
(IRETURN) para sair dele e devolver o controle ao metodo que o invocou. Pela complexidade do mecanismo, 
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simplificamos de leve a definigao, possibilitando produzir um mecanismo direto para invocar uma chamada e um 
retorno. A restrigao e que, diferente da Java, so permitimos que um metodo invoque outro existente dentro de 
seu proprio objeto. Essa restrigao prejudica seriamente a orientagao de objetos, mas nos permite apresentar um 
mecanismo muito mais simples, evitando o requisito de localizar o metodo dinamicamente. (Se voce nao estiver 
familiarizado com programagao orientada a objeto, pode ignorar essa observagao sem susto. O que fizemos foi 
levar Java de volta a uma linguagem nao orientada a objeto, como C ou Pascal.) Em todos os computadores, 
exceto JVM, o enderego do procedimento para chamar e determinado diretamente pela instrugao CALL, portanto, 
nossa abordagem e, na verdade, o caso normal, e nao a excegao. 

O mecanismo para invocar um metodo e o seguinte. Primeiro, o chamador passa para a pilha uma referencia 
(ponteiro) ao objeto a ser chamado. (Essa referencia nao e necessaria na IJVM, visto que nenhum outro objeto 
pode ser especificado, mas e mantida para preservar a consistencia com a JVM.) Na Figura 4.12(a), essa referencia 
e indicada por OBJ REF. Em seguida, o chamador passa os parametros do metodo para a pilha, nesse exemplo, 
Parametro 1, Parametro 2 e Parametro 3. Finalmente, INVOKEVIRTUAL e executada. 

A instrugao INVOKEVIRTUAL inclui um deslocamento que indica a posigao no conjunto de constantes que 
contem o enderego de inlcio dentro da area de metodo para o metodo que esta sendo invocado. Contudo, embora 
o codigo do metodo resida na localizagao apontada por esse ponteiro, os primeiros 4 bytes na area de metodo 
contem dados especiais. Os primeiros 2 bytes sao interpretados como um inteiro de 16 bits que indica o numero 
de parametros para o metodo (os parametros em si ja foram passados para a pilha). Nessa contagem, OBJREF e 
contado como um parametro: parametro 0. Esse inteiro de 16 bits, junto com o valor de SP, fornece a localizagao 
de OBJREF. Note que LV aponta para OBJREF, e nao para o primeiro parametro real. Para onde o LV aponta e 
uma escolha um tanto arbitraria. 

Os 2 bytes seguintes na area de metodo sao interpretados como outro inteiro de 16 bits, que indica o tama- 
nho da area de variaveis locais para o metodo que esta sendo chamado. Isso e necessario porque uma nova pilha 
sera estabelecida para o metodo, comegando imediatamente acima do quadro de variaveis locais. Por fim, o quinto 
byte na area de metodo contem o primeiro opcode a ser executado. 

A sequencia real que ocorre para INVOKEVIRTUAL e a seguinte, e esta retratada na Figura 4.12. Os dois bytes 
de Indice sem sinal que seguem o opcode sao usados para construir um Indice na tabela do conjunto de constantes 
(o primeiro byte e o byte de ordem alta). A instrugao calcula o enderego da base do novo quadro de variaveis locais 
subtraindo o numero de parametros do ponteiro da pilha e ajustando LV para apontar para OBJREF. Nesse local, 
sobrescrevendo OBJREF, a implementagao guarda o enderego do local onde o antigo PC deve ser armazenado. Esse 
enderego e calculado adicionando o tamanho do quadro de variaveis locais (parametros + variaveis locais) ao endere¬ 
go contido em LV. Imediatamente acima do enderego onde o antigo PC deve ser armazenado esta o enderego onde o 
antigo LV deve ser armazenado. Logo acima daquele enderego esta o inlcio da pilha para o procedimento que acabou 
de ser chamado. O SP e ajustado para apontar para o antigo LV, que e o enderego logo abaixo do primeiro local vazio 
na pilha. Lembre-se de que o SP sempre aponta para a palavra no topo da pilha. Se esta estiver vazia, ele aponta para 
o primeiro local abaixo do final, porque nossas pilhas crescem para cima, na diregao de enderegos mais altos. Em 
nossas figuras, as pilhas sempre crescem para cima, na diregao dos enderegos mais altos, no topo da pagina. 

A ultima operagao necessaria para efetuar INVOKEVIRTUAL e ajustar PC para apontar para o quinto byte no 
espago de codigo do metodo. 

A instrugao I RETURN inverte as operagoes da instrugao INVOKEVIRTUAL, conforme mostra Figura 4.13. 
Ela libera o espago usado pelo metodo que retorna. Tambem restaura a pilha a seu estado anterior, exceto que 
(1) a palavra OBJREF (agora sobrescrita) e todos os parametros foram retirados da pilha e (2) o valor retornado 
foi colocado no topo da pilha, no local antes ocupado por OBJREF. Para restaurar o antigo estado, a instrugao 
I RETURN deve ser capaz de restaurar os ponteiros PC e LV para seus antigos valores. Ela faz isso acessando o 
ponteiro de ligagao (que e a palavra identificada pelo ponteiro LV corrente). Lembre-se de que, nesse local, onde 
a OBJREF estava armazenada originalmente, a instrugao INVOKEVIRTUAL armazenou o enderego contendo o 
PC antigo. Essa palavra e a palavra acima dela sao recuperadas para restaurar PC e LV para seus valores antigos. 
O valor de retorno, que estava armazenado no topo da pilha do metodo que esta encerrando, e copiado para o 
local onde a OBJREF estava armazenada, e SP e restaurado para apontar para esse local. Portanto, o controle e 
devolvido a instrugao imediatamente apos a instrugao INVOKEVIRTUAL. 
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Figura 4.12 


(a) Memoria antes de executor invokevirtual. (b) Apos executa-la. 
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Figura 4.13 


Memoria antes de executor ireturn. (b) Apos executa-la. 
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Ate aqui, nossa maquina nao tem nenhuma instrugao de entrada/salda. Tampouco vamos adicionar alguma. 
Ela nao precisa dessas instrugoes, nem a Java Virtual Machine, e a especificagao oficial para a JVM sequer men- 
ciona E/S. A teoria e que uma maquina que nao efetua entrada nem salda e “segura”. (Na JVM, leitura e escrita 
sao realizadas por meio de uma chamada a metodos especiais de E/S.) 

4.2.4 Compilando Java para a IJVM 

Agora, vamos ver como Java e IJVM estao relacionadas uma com a outra. Na Figura 4.14(a), mostramos um 
fragmento simples de codigo Java. Quando alimentado em um compilador Java, este provavelmente produziria a 
linguagem de montagem IJVM mostrada na Figura 4.14(b). Os numeros de linhas de 1 a 15 a esquerda do pro- 
grama de linguagem de montagem nao fazem parte da salda do compilador; o mesmo vale para os comentarios 
(que comegam com //). Eles estao ali para ajudar a explicar a figura seguinte. Entao, o assembler Java traduziria 
o programa de montagem para o programa binario mostrado na Figura 4.14(c). (Na verdade, o compilador Java 
faz sua propria montagem e produz o programa binario diretamente.) Para este exemplo, consideremos que i e a 
variavel local 1, j e a variavel local 2 e k e a variavel local 3. 


Figura 4.14 


(a) Fragmento em Java, (b) Linguagem de montagem Java correspondente. (c) Programa IJVM em hexadecimal. 


i = j + k; 

1 


ILOAD j 

// i = j + k 

0x15 0x02 

if (i == 3) 

2 


ILOAD k 


0x15 0x03 

k = 0; 

3 


IADD 


0x60 

else 

4 


ISTORE i 


0x36 0x01 

j = j -i; 

5 


ILOAD i 

// if (i == 3) 

0x15 0x01 


6 


BIPUSH 3 


0x10 0x03 


7 


IFJCMPEQ LI 


0x9F 0x00 


8 


ILOAD j 

// i = J -1 

0x15 0x02 


9 


BIPUSH 1 


0x10 0x01 


10 


ISUB 


0x64 


11 


ISTORE j 


0x36 0x02 


12 


GOTO L2 


0xA7 0x00 


13 

LI: 

BIPUSH 0 

// k = o 

0x10 0x00 


14 


ISTORE k 


0x36 0x03 


15 

L2: 




(a) 



(b) 


(C) 


O codigo compilado e direto. Primeiro, j e k sao passadas para a pilha, somadas e o resultado e armazenado 
em i. Entao, i e a constante 3 sao passadas para a pilha e comparadas. Se forem iguais, e tornado um desvio para 
Li, onde k e ajustada para 0. Se forem diferentes, a comparagao falha e o codigo logo apos IFJCMPEQ e execu- 
tado. Feito isso, ele desvia para L2, onde as partes then e else se fundem. 

A pilha de operandos para o programa IJVM da Figura 4.14(b) e mostrada na Figura 4.15. Antes de o codigo 
comegar a executar, ela esta vazia, o que e indicado pela hnha horizontal acima do 0. Apos a primeira I LOAD, 
j esta na pilha, como indicado por j no retangulo acima de 1 (o que significa que a instrugao 1 foi executada). 
Depois da segunda I LOAD, duas palavras estao na pilha, como mostrado acima de 2. Apos a I ADD, ha somente 
uma palavra na pilha, que contem a soma j + k. Quando a palavra do topo e retirada e armazenada em i, a pilha 
esta vazia, como mostrado acima do 4. 

A instrugao 5 (ILOAD) inicia a declaragao if passando i para a pilha (em 5). Em seguida, vem a constante 3 
(em 6). Apos a comparagao, a pilha esta novamente vazia (7). A instrugao 8 e o inicio da parte else do fragmento 
de programa Java. A parte else continua ate a instrugao 12, quando entao desvia para a parte then e vai para o 
rotulo L2. 
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Figura 4.15 


Pilha apos cada instrucao da Figura 4.14(b). 
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4.3 Exemplo de implementacao 

Agora que ja especificamos em detalhes a micro e a macroarquitetura, resta a questao da implementagao. Em 
outras palavras, como e urn programa que esta rodando na primeira e interpretando a ultima, e como ele funcio- 
na? Antes de podermos responder a essas perguntas, devemos considerar com cuidado a notagao que usaremos 
para descrever a implementagao. 

4.3.1 Microinstrucoes e notacao 

Em princlpio, poderlamos descrever o armazenamento de controle em linguagem binaria, 36 bits por pala- 
vra. Mas, em linguagens de programagao convencionais, e um grande beneflcio introduzir uma notagao que 
transmita a essencia das questoes que precisamos tratar e, ao mesmo tempo, oculte os detalhes que podem ser 
ignorados ou que podem ser mais bem tratados automaticamente. Nesse caso, e importante perceber que a lingua- 
gem que escolhemos pretende ilustrar os conceitos, e nao facilitar projetos eficientes. Se esse fosse nosso objetivo, 
usarlamos uma notagao diferente para maximizar a flexibilidade disponlvel para o projetista. Um aspecto em que 
essa questao e importante e a escolha de enderegos. Uma vez que a memoria nao e ordenada logicamente, nao 
ha nenhuma “proxima instrugao” natural a ser subentendida quando especificamos uma sequencia de operagoes. 
Grande parte do poder dessa organizagao de controle deriva da capacidade do projetista [ou do montador (assem¬ 
bler)] de selecionar enderegos com eficiencia. Portanto, comegamos introduzindo uma linguagem simbolica 
simples que da uma descrigao completa de cada operagao sem explicar completamente como todos os enderegos 
poderiam ter sido determinados. 

Nossa notagao especifica todas as atividades que ocorrem num unico ciclo de clock em uma unica linha. Em 
teoria, poderlamos usar uma linguagem de alto nivel para descrever as operagoes. Contudo, o controle ciclo por 
ciclo e muito importante porque da oportunidade de realizar varias operagoes ao mesmo tempo e e necessario que 
possamos analisar cada um para entender e verificar as operagoes. Se a meta for uma execugao rapida e eficiente 
(se os outros aspectos forem iguais, rapido e eficiente e sempre melhor que lento e ineficiente), entao, cada ciclo 
conta. Em uma implementagao real, ha muitos truques sutis ocultos no programa, que usam sequencias ou ope¬ 
ragoes obscuras para economizar um unico ciclo que seja. Ha uma grande compensagao por economizar ciclos: 
uma instrugao de quatro ciclos que pode ser reduzida em dois agora sera executada com uma velocidade duas 
vezes maior - e essa aceleragao e obtida toda vez que executamos a instrugao. 

Uma abordagem posslvel e simplesmente fazer uma lista dos sinais que deveriam ser ativados a cada ciclo 
de clock. Suponha que, em determinado ciclo, queremos incrementar o valor de SP. Tambem queremos iniciar 
uma operagao de leitura e queremos que a proxima instrugao seja a que reside no local 122 do armazenamento 
de controle. Poderlamos escrever 

ReadRegister = SP, ULA = INC, WSP, Read, NEXT_ADDRESS = 122 

onde WSP significa “escreva no registrador SP”. Essa notagao e completa, mas diflcil de entender. Em vez disso, 
combinaremos as operagoes de modo natural e intuitivo para cap tar o efeito daquilo que esta acontecendo: 
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SP = SP + 1; rd 

Vamos dar a nossa Microlinguagem Assembly de alto nlvel o nome “MAL” (palavra de raiz latina que significa 
“doente”, o que com certeza voce ficara se tiver de escrever muito codigo utilizando essa linguagem). A MAL e 
projetada para refletir as caracterlsticas da microarquitetura. Durante cada ciclo, qualquer um dos registradores 
pode ser escrito, mas o normal e que somente um o seja. Apenas um registrador pode ser copiado para o lado B 
da ULA. No lado A, as opgoes sao +1, 0, -1 e o registrador H. Assim, podemos usar uma declaragao de atribuigao 
simples, como em Java, para indicar a operagao a ser executada. Por exemplo, para copiar algo de SP para MDR, 
podemos dizer 

MDR = SP 

Para indicar a utilizagao das fungoes ULA, exceto passar pelo barramento B, podemos escrever, por exemplo, 

MDR = H + SP 

que adiciona o conteudo do registrador H a SP e escreve o resultado no MDR. O operador + e cornutativo - o que 
significa que a ordem dos operandos nao importa -, portanto, a declaragao anterior tambem pode ser escrita como 

MDR = SP + H 

e gerar a mesma microinstrugao de 36 bits, ainda que, em termos estritos, H deve ser o operando esquerdo da ULA. 

Temos de tomar o cuidado de usar somente operagoes validas. As operagoes validas mais importantes sao 
mostradas na Figura 4.16, na qual SOURCE pode ser qualquer um dentre MDR, PC, MBR, MBRU, SP, LV, CPP, 
TOS ou OPC (MBRU implica a versao sem sinal de MBR). Todos esses registradores podem agir como fontes para 
a ULA no barramento B. De modo semelhante, DEST pode ser qualquer um dentre MAR, MDR, PC, SP, LV, CPP, 
TOS, OPC ou H; todos eles sao destinos posslveis para a salda da ULA no barramento C. Esse forma to pode ser 
enganoso, pois muitas declaragoes aparentemente razoaveis sao ilegais. Por exemplo, 

MDR = SP + MDR 

parece perfeitamente razoavel, mas nao ha nenhum modo de executa-la em um ciclo no caminho de dados 
da Figura 4.6. Essa restrigao existe porque, para uma adigao (exceto um incremento ou decremento), um dos 
operandos tern de ser o registrador H. Da mesma forma, 

H = H - MDR 

poderia ser util, mas tambem ela e imposslvel porque a unica fonte posslvel de um subtraendo - valor que esta 
sendo subtraldo - e o registrador H. Cabe ao montador rejeitar declaragoes que paregam validas, mas que, na 
verdade, sao ilegais. 

Ampliamos a notagao para permitir multiplas atribuigoes pela utilizagao de multiplos sinais de igual. Por exem¬ 
plo, adicionar 1 a SP e armazena-lo de volta em SP, bem como escreve-lo em MDR, pode ser conseguido por 

SP = MDR = SP + 1 

Para indicar leituras e escritas de memoria de palavras de dados de 4 bytes, basta acrescentar rd e wr a 
microinstrugao. Buscar um byte pela porta de 1 byte e indicado por fetch. Atribuigoes e operagoes de memoria 
podem ocorrer no mesmo ciclo, o que e indicado escrevendo-as na mesma linha. 

Para evitar qualquer confusao, vamos repetir que a Mic-1 tern dois modos de acessar a memoria. Leituras e 
escritas de palavras de dados de 4 bytes usam MAR/M DR e sao indicadas nas microinstrugoes por rd e wr, respec- 
tivamente. Leituras de opcodes de 1 byte a partir da sequencia de instrugoes usam PC/MBR e sao indicadas por 
fetch nas microinstrugoes. Ambos os tipos de operagoes de memoria podem ocorrer simultaneamente. 

Contudo, o mesmo registrador nao pode receber um valor da memoria e o caminho de dados no mesmo 
ciclo. Considere o codigo 

MAR = SP; rd 

MDR = H 

O efeito da primeira microinstrugao e atribuir um valor da memoria a MDR no final da segunda microinstru¬ 
gao. Contudo, esta tambem atribui um valor a MDR ao mesmo tempo. Essas duas atribuigoes estao em conflito e 
nao sao permitidas porque os resultados sao indefinidos. 
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Figura 4.16 Todas as operates permitidas. Qualquer uma das operacoes anteriores pode ser estendida somando "«8" a elas para des- 
locar o resultado para a esquerda por 1 byte. Por exemplo, uma operacao comum e H = mbr «8. 

DEST = H 
DEST = SOURCE 
DEST = H 
DEST = SOURCE 
DEST = H + SOURCE 
DEST = H + SOURCE + 1 
DEST = H + 1 
DEST = SOURCE + 1 
DEST = SOURCE - H 
DEST = SOURCE - 1 
DEST = -H 

DEST = H AND SOURCE 
DEST = H OR SOURCE 
DEST = 0 
DEST = 1 
DEST = -1 


Lembre-se de que cada microinstrugao deve fornecer explicitamente o enderego da proxima a ser executada. 
Todavia, e comum ocorrer que uma microinstrugao seja chamada somente por uma outra, a saber, por aquela 
que esta na linha imediatamente acima dela. Para facilitar o trabalho do microprogramador, o microassembler 
atribui um enderego a cada microinstrugao, nao necessariamente consecutivas no armazenamento de controle, e 
preenche o proximo campo NEXT_ADDRESS de modo que microinstrugoes escritas em linhas consecutivas sao 
executadas consecutivamente. 

Todavia, as vezes o microprogramador quer desviar, condicional ou incondicionalmente. A notagao para 
desvios incondicionais e facil: 

goto label 

e pode ser inclulda em qualquer microinstrugao para nomear explicitamente sua sucessora. Por exemplo, a maio- 
ria das sequencias de microinstrugao termina com um retorno a primeira instrugao do lago principal, portanto, a 
ultima instrugao em cada uma dessas sequencias normalmente inclui 

goto Mainl 

Note que o caminho de dados esta disponlvel para operagoes normais mesmo durante a microinstrugao que 
contem um goto. Afinal, toda microinstrugao individual contem um campo NEXT_ADDRESS. A tarefa de goto 
e instruir o microassembler a colocar um valor especlfico nesse campo em vez de no enderego onde ele decidiu 
colocar a microinstrugao na linha seguinte. Em princlpio, toda linha deveria ter uma declaragao goto; apenas 
como uma conveniencia para o microprogramador, quando o enderego visado for a proxima linha, ele pode ser 
omitido. 

Para desvios condicionais, precisamos de uma notagao diferente. Lembre-se de que JAMN e JAMZ usam os 
bits N e Z, que sao ajustados com base na salda da ULA. As vezes, e preciso testar um registrador para ver se ele 
e zero, por exemplo. Um modo de fazer isso seria passa-lo pela ULA e armazena-lo em si mesmo. Escrever 
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TOS = TOS 

parece peculiar, embora exerga sua fungao (ajustar o flip-flop Z com base no TOS). Contudo, para que os micro- 
programas paregam melhores, agora estendemos MAL adicionando dois registradores imaginarios, N e Z, aos quais 
se podem designar atribuigoes. Por exemplo, 

Z = TOS 

passa TOS pela ULA, ajustando assim os flip-flops Z (e N), mas nao faz um armazenamento em qualquer registra- 
dor. Usar Z ou N como um destino equivale a dizer ao microassembler que ajuste todos os bits no campo C da 
Figura 4.5 para 0. O caminho de dados executa um ciclo normal, com todas as operagoes normais permitidas, mas 
nenhum registrador e escrito. Note que nao importa se o destino e N ou Z; a microinstrugao gerada pelo micro¬ 
assembler e identica. Programadores que escolhem intencionalmente a forma “errada” deveriam, como castigo, 
ser obrigados a trabalhar em um IBM PC original de 4,77 MHz durante uma semana. 

A sintaxe para dizer ao microassembler que ajuste o bit JAMZ e 

if (Z) goto LI; else goto L2 

Uma vez que o hardware requer que os 8 bits de ordem baixa desses dois enderegos sejam identicos, cabe 
ao microassembler designa-los a enderegos com essa propriedade. Por outro lado, visto que L2 pode estar em 
qualquer lugar nas 256 palavras que estao mais embaixo no armazenamento de controle, o microassembler tern 
bastante liberdade para achar um par disponlvel. 

Normalmente, essas duas declaragoes serao combinadas; por exemplo: 

Z = TOS; if (Z) goto LI; else goto L2 

O efeito dessa declaragao e que MAL gera uma microinstrugao na qual TOS e passada pela ULA (mas nao 
e armazenada em lugar algum) de modo que seu valor ajusta o bit Z. Logo apos Z ser carregado a partir do bit 
de condigao da ULA, ele passa por uma operagao OR com o bit de ordem alta do MPC, forgando o enderego da 
proxima microinstrugao a ser buscado em L2 ou LI (que deve ser exatamente 256 mais do que L2). O MPC estara 
estavel e pronto a ser utilizado para buscar a proxima microinstrugao. 

Por fim, precisamos de uma notagao para usar o bit JMPC. A notagao que usaremos sera 

goto (MBR OR value) 

Essa sintaxe diz ao microassembler para usar value para NEXT_ADDRESS e ajustar o bit JMPC de modo que 
MBR e NEXT_ADDRESS sejam combinados por uma operagao OR, e o resultado, armazenado em MPC. Se value 
for 0, que e o caso normal, basta escrever 

goto (MBR) 

Note que somente os 8 bits de ordem baixa de MBR sao ligados ao MPC (veja a Figura 4.6), portanto, a 
questao da extensao de sinal (isto e, MBR versus MBRU) nao surge aqui. Alem disso, note que o MBR disponlvel 
no final do ciclo em questao e o que e utilizado. Uma busca iniciada nessa microinstrugao esta muito atrasada 
para afetar a escolha da proxima microinstrugao. 

4.3.2 Implementacdo de IJVM que usa a Mic-1 

Chegamos enfim ao ponto em que podemos juntar todas as partes. A Figura 4.17 e o microprograma que 
executa em Mic-1 e interpreta a IJVM. E um programa surpreendentemente curto - somente 112 microinstrugoes 
no total. Sao dadas tres colunas para cada microinstrugao: o rotulo simbolico, o microcodigo propriamente dito e 
um comen tario. Note que microinstrugoes consecutivas nao precisam ser localizadas em enderegos consecutivos 
no armazenamento de controle, como ja havlamos comentado. 
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Figura 4.17 Microprograma para a Mic-1. 



1 N.R.: O termo “fetch” indica a leitura de um byte da area de programa. 
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Rotulo 

Operacoes 

Comentarios 

istorel 

H = LV 

MBR contem fndice; copie LV para H 

istore2 

MAR = MBRU + H 

MAR = enderego de variavel local onde armazenar 

istore3 

MDR = TOS; wr 

Copie TOS para MDR; escreva palavra 

istore4 

SP = MAR = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

istore5 

PC = PC + 1 ; fetch 

Incremente PC; busque proximo opcode 

istore6 

TOS = MDR; goto Mainl 

Atualize TOS 

widel 

PC = PC + 1 ; fetch 

Busque byte de operando ou proximo opcode 

wide2 

goto (MBR OR 0x100) 

Ramificagao multivias com bit alto ajustado 

widejloadl 

PC = PC + 1 ; fetch 

MBR contem I 2 byte de fndice; busque 2 2 

wide_iload2 

H = MBRU « 8 

H = I 2 byte de fndice deslocado 8 bits para esquerda 

wide_iload3 

H = MBRU OR H 

H = fndice de 16 bits de variavel local 

wide_iload4 

MAR = LV + H; rd; goto iload3 

MAR = enderego de variavel local a carregar 

widejstorel 

PC = PC + 1 ; fetch 

MBR contem I 2 byte de fndice; busque 2 2 

wide_istore2 

H = MBRU « 8 

H = I 2 byte de fndice deslocado 8 bits para esquerda 

wide_istore3 

H = MBRU OR H 

H = fndice de 16 bits de variavel local 

wide_istore4 

MAR = LV + H; goto istore3 

MAR = enderego de variavel local no qual armazenar 

Idc_w1 

PC = PC + 1 ; fetch 

MBR contem I 2 byte de fndice; busque 2 2 

Idc_w2 

H = MBRU « 8 

H = I 2 byte de fndice << 8 

Idc_w3 

H = MBRU OR H 

H = fndice de 16 bits dentro do conjunto de constantes 

Idc_w4 

MAR = H + CPP; rd; goto iload3 

MAR = enderego de constante no conjunto de constantes 

iincl 

H = LV 

MBR contem fndice; copie LV para H 

iinc2 

MAR = MBRU + H; rd 

Copie LV + fndice para MAR; leia variavel 

iinc3 

PC = PC + 1; fetch 

Busque constante 

iinc4 

H = MDR 

Copie variavel para H 

iinc5 

PC = PC + 1; fetch 

Busque proximo opcode 

iinc6 

MDR = MBR + H; wr; goto Mainl 

Ponha soma em MDR; atualize variavel 

gotol 

OPC = PC - 1 

Salve enderego de opcode 

goto2 

PC = PC + 1; fetch 

MBR = I 2 byte de deslocamento; busque 2 2 byte 

goto3 

H = MBR « 8 

Desloque e salve primeiro byte com sinal em H 

goto4 

H = MBRU OR H 

H = deslocamento de desvio de 16 bits 

goto5 

PC = OPC + H; fetch 

Adicione deslocamento a OPC 

goto6 

goto Mainl 

Espere para buscar o proximo opcode 

ifltl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

iflt2 

OPC = TOS 

Salve TOS em OPC temporariamente 

iflt3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

iflt4 

N = OPC; if (N) goto T; else goto F 

Desvio de bit N 
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Rotulo 

Operacoes 

Comentarios 

ifeql 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

ifeq2 

OPC = TOS 

Salve TOS em OPC temporariamente 

ifeq3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

ifeq4 

Z = OPC; if (Z) goto T; else goto F 

Desvio de bit Z 

ifjcmpeql 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

if_icmpeq2 

MAR = SP = SP - 1 

Ajuste MAR para ler novo topo da pilha 

if_icmpeq3 

H = MDR; rd 

Copie segunda palavra da pilha para H 

if_icmpeq4 

OPC = TOS 

Salve TOS em OPC temporariamente 

if_icmpeq5 

TOS = MDR 

Ponha novo topo da pilha em TOS 

if_icmpeq6 

Z = OPC - FI; if (Z) goto T; else goto F 

Se 2 palavras do topo da pilha forem iguais, va para T, 
senao va para F 

T 

OPC = PC - 1; goto goto2 

0 mesmo que gotol; necessario para enderego de destino 

F 

PC = PC + 1 

Salte primeiro byte de deslocamento 

F2 

PC = PC + 1; fetch 

PC agora aponta para proximo opcode 

F3 

goto Mainl 

Espere por busca de opcode 

invokevirtuall 

PC = PC + 1; fetch 

MBR = byte de fndice 1; incremente PC, obtenha 2 Q byte 

invokevirtual2 

H = MBRU « 8 

Desloque e salve primeiro byte em FI 

invokevirtual3 

H = MBRU OR H 

H = deslocamento de ponteiro de metodo em relagao a CPP 

invokevirtual4 

MAR = CPP + H; rd 

Obtenha ponteiro para metodo da area CPP 

invokevirtual5 

OPC = PC + 1 

Salve PC de retorno em OPC temporariamente 

invokevirtual6 

PC = MDR; fetch 

PC aponta para novo metodo; obtenha contagem de para- 

metros 

invokevirtual7 

PC = PC + 1; fetch 

Busque 2 a byte da contagem de parametro 

invokevirtual8 

H = MBRU « 8 

Desloque e salve primeiro byte em H 

invokevirtual9 

H = MBRU OR H 

H = numero de parametros 

invokevirtuallO 

PC = PC + 1; fetch 

Busque 1 Q byte de # locais 

invokevirtuall 1 

TOS = SP-H 

TOS = enderego de OBJREF - 1 

invokevirtuall 2 

TOS = MAR = TOS + 1 

TOS = enderego de OBJREF (novo LV) 

invokevirtuall 3 

PC = PC + 1; fetch 

Busque 2 a byte de # locais 

invokevirtuall 4 

H = MBRU « 8 

Desloque e salve primeiro byte em H 

invokevirtuall 5 

H = MBRU OR H 

H = # locais 

invokevirtuall 6 

MDR = SP + H + 1; wr 

Sobrescreva OBJREF com ponteiro de enlace 

invokevirtuall 7 

MAR = SP = MDR 

Ajuste SP, MAR para localizagao para conter PC antigo 

invokevirtuall 8 

MDR = OPC; wr 

Salve PC antigo acima das variaveis locais 

invokevirtuall 9 

MAR = SP = SP + 1 

SP aponta para localizagao para conter LV antigo 

invokevirtual20 

MDR = LV; wr 

Salve LV antigo acima do PC salvo 

invokevirtuall 

PC = PC + 1; fetch 

Busque primeiro opcode do novo metodo 
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Rotulo 

Operagoes 

Comentarios 

invokevirtual22 

LV = TOS; goto Mainl 

Ajuste LV para apontar para quadro LV 

ireturn 1 

MAR = SP = LV; rd 

Reajuste SP, MAR para obter ponteiro de ligagao 

ireturn2 


Espere por leitura 

ireturn3 

LV = MAR = MDR; rd 

Ajuste LV para ponteiro de ligagao; obtenha PC antigo 

ireturn4 

MAR = LV + 1 

Ajuste MAR para ler LV antigo 

ireturn5 

PC = MDR; rd; fetch 

Restaure PC; busque proximo opcode 

ireturn6 

MAR = SP 

Ajuste MAR para escrever TOS 

ireturn7 

LV = MDR 

Restaure LV 

ireturn8 

MDR = TOS; wr; goto Mainl 

Salve valor de retorno no topo de pilha original 


A essa altura a escolha de nomes para a maioria dos registradores na Figura 4.1 ja deve ser obvia: CPP, LV e 
SP sao usados para conter os ponteiros para o conjunto de constantes, variaveis locais e o topo da pilha, enquanto 
PC contem o enderego do proximo byte a ser buscado no fluxo de instrugoes. MBR e um registrador de 1 byte que 
contem os bytes da sequencia de instrugao, a medida que eles chegam da memoria para ser interpretados. TOS e 
OPC sao registradores extras. Sua utilizagao e descrita a seguir. 

Em certas ocasioes, e garantido que cada um desses registradores contenha certo valor, mas cada um pode 
ser usado como um registrador transitorio, se necessario. No inlcio e no final de cada instrugao, TOS contem o 
valor do enderego de memoria apontado por SP, a palavra que esta no topo da pilha. Esse valor e redundante, uma 
vez que sempre pode ser lido da memoria, mas te-lo em um registrador muitas vezes economiza uma referenda 
a memoria. Para algumas poucas instrugoes, manter TOS significa mais operagoes de memoria. Por exemplo, a 
instrugao POP joga fora a palavra do topo e, portanto, deve buscar a nova palavra do topo da pilha na memoria 
e passa-la para TOS. 

O registrador OPC e um registrador temporario . Ele nao tern nenhuma utilizagao predeterminada. E usado, por 
exemplo, para salvar o enderego do opcode para uma instrugao de desvio enquanto o PC e incrementado para acessar 
parametros. Tambem e usado como um registrador temporario nas instrugoes de desvio condicional da IJVM. 

Como todos os interpretadores, o microprograma da Figura 4.17 tern um lago principal que busca, decodi- 
fica e executa instrugoes do programa que esta sendo interpretado, nesse caso, instrugoes IJVM. Seu lago prin¬ 
cipal comega na linha de rotulo Mainl . Inicia com a invariante de que o PC tenha sido previamente carregado 
com um enderego de um local da memoria que contem um opcode. Alem do mais, esse opcode ja foi trazido para 
dentro do MBR. Contudo, observe que isso implica que, quando voltarmos a esse local, devemos assegurar que 
o PC foi atualizado para apontar o proximo opcode a ser interpretado e o proprio byte do opcode ja foi trazido 
para dentro do MBR. 

Essa sequencia inicial de instrugoes e executada no inlcio de cada instrugao, entao, e importante que ela seja 
a mais curta posslvel. Por meio de um projeto muito cuidadoso do hardware e do software da Mic-1, conseguimos 
reduzir o lago principal a uma unica microinstrugao. Uma vez iniciada a maquina, toda vez que essa microins¬ 
trugao for executada, o opcode IJVM a executar ja esta presente no MBR. A tarefa dessa microinstrugao e desviar 
para o microcodigo para executar a instrugao IJVM e tambem iniciar a busca do byte apos o opcode , que pode ser 
um byte de operando ou o proximo opcode. 

Agora podemos revelar a razao real por que cada microinstrugao nomeia sua sucessora em vez de executa-las 
em sequencia. Todos os enderegos do armazenamento de controle correspondentes a opcodes devem ser reserva- 
dos para a primeira palavra do interpretador de instrugao correspondente. Assim, pela Figura 4.11, vemos que 
o codigo que interpreta POP comega em 0x57 e o codigo que interpreta DUP comega em 0x59. (Como o MAL 
consegue colocar POP em 0x57? Possivelmente, ha um arquivo em algum lugar que o informa.) 
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Infelizmente, o codigo para POP tem tres microinstrugoes de comprimento, portanto, se colocado em 
palavras consecutivas, interferiria com o inlcio de DUP. Uma vez que todos os enderegos do armazenamento de 
controle correspondentes a opcodes sao de fato reservados, as microinstrugoes, exceto a inicial em cada sequencia, 
devem ser colocadas nos espagos entre os enderegos reservados. Por essa razao, ha muitos saltos para la e para ca; 
dessa maneira, ter um microdesvio expllcito - microinstrugao que desvia - a cada poucas microinstrugoes para 
sal tar de buraco em buraco seria muito desperdlcio. 

Para ver como o interpretador trabalha, vamos considerar, por exemplo, que MBR contem o valor 0x60, isto 
e, o opcode para IADD (veja a Figura 4.11). No lago principal de uma so microinstrugao realizamos tres coisas: 

1. Incrementamos o PC, que fica contendo o enderego do primeiro byte apos o opcode. 

2. Iniciamos uma busca do proximo byte para MBR. Mais cedo ou mais tarde, esse byte sempre sera 
necessario, seja como um operando para a instrugao IJVM corrente, seja como o proximo opcode (como 
no caso da instrugao IADD, que nao tem bytes de operando). 

3. Executamos um desvio multivias ate o enderego contido em MBR no inlcio de Mainl. Esse enderego e 
igual ao valor numerico do opcode que esta sendo executado no momento em questao. Ele foi colocado 
ali pela microinstrugao anterior. Nao se esquega de observar que o valor que esta sendo buscado nessa 
microinstrugao nao desempenha nenhum papel no desvio multivias. 


A busca do proximo byte e iniciada aqui, portanto, ele estara disponlvel no inlcio da terceira microinstrugao. 
Ele pode ser ou nao necessario nesse momento, porem, mais cedo ou mais tarde, sera necessario. Portanto, em 
todo caso, iniciar a busca agora nao podera fazer mal algum. 

Se acaso os bytes em MBR forem todos zeros, o opcode para uma instrugao NOP, a microinstrugao seguinte, 
e a que tem rotulo nopl , buscada da locabzagao 0. Como essa instrugao nada faz, ela apenas desvia de volta ao 
inlcio do lago principal, onde a sequencia e repetida, mas com um novo opcode buscado em MBR. 

Mais uma vez destacamos que as microinstrugoes na Figura 4.17 nao sao consecutivas na memoria e que 
Mainl nao esta no enderego 0 do armazenamento de controle (porque nopl tem de estar no enderego 0). Cabe ao 
microassembler colocar cada microinstrugao em um enderego adequado e liga-las em sequencias curtas usando o 
campo NEXT_ADDRESS. Cada sequencia comega no enderego correspondente ao valor numerico do opcode IJVM 
que interpreta (por exemplo, POP comega em 0x57), mas o resto da sequencia pode estar em qualquer lugar do 
armazenamento de controle, e nao necessariamente no enderego consecutivo. 

Agora, considere a instrugao IJVM IADD. A microinstrugao para a qual o lago principal desviou e a que tem 
o rotulo iaddl. Essa instrugao inicia o trabalho especlfico de IADD: 

1. O TOS ja esta presente, mas a palavra anterior a que esta no topo da pilha deve ser buscada na memoria. 

2. O TOS deve ser adicionado a palavra anterior a do topo da pilha que foi buscada na memoria. 

3. O resultado, que deve ser passado para a pilha, deve ser armazenado de volta na memoria, bem como 
armazenado no registrador TOS. 


Para buscar o operando na memoria, e necessario decrementar o ponteiro da pilha e escreve-lo em MAR. Note 
que, por conveniencia, esse enderego tambem e o enderego que sera usado para a escrita subsequente. Alem do 
mais, visto que tal locabzagao sera o novo topo da pilha, esse valor deve ser atribuldo a SP. Portanto, uma unica 
operagao pode determinar o novo valor de SP e MAR, decrementar SP e escreve-lo em ambos os registradores. 

Essas coisas sao realizadas no primeiro ciclo, iaddl, e a operagao de leitura e iniciada. Alem disso, MPC 
obtem o valor do campo NEXT_ADDRESS de iaddl, que e o enderego de iadd2, onde quer que ele possa estar. 
Entao, iadd2 e lida do armazenamento de controle. Durante o segundo ciclo, enquanto espera o operando ser 
lido da memoria, copiamos a palavra do topo da pilha do TOS para H, onde ela ficara disponlvel para a adigao 
quando a leitura for conclulda. 
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No inlcio do terceiro ciclo, iadd3, MDR contem o somando buscado na memoria. Neste ciclo, ele e adicionado ao 
conteudo de H, e o resultado e armazenado de volta em MDR, bem como em TOS. Tambem e iniciada uma operagao 
de escrita, armazenando a nova palavra de topo de pilha de volta a memoria. Neste ciclo, o goto tern o efeito de atri- 
buir o enderego de Mainl ao MPC, o que nos leva de volta ao ponto de partida para a execugao da proxima instrugao. 

Se o opcode IJVM subsequente, agora contido em MBR, for 0x64 (ISUB), quase exatamente a mesma sequen- 
cia de eventos ocorre de novo. Apos a execugao de Mainl , o controle e transferido para a microinstrugao em 0x64 
(isubl). Essa microinstrugao e seguida por isub2 e isub3, e entao novamente Mainl. A unica diferenga entre essa 
sequencia e a anterior e que em isub3, o conteudo de H e subtraldo de MDR em vez de somado a ele. 

A interpretagao de IAND e quase identica a de IADD e ISUB, exceto que as duas palavras do topo da pilha pas- 
sam por uma operagao AND bit a bit em vez de serem somadas ou subtraldas. Algo semelhante acontece para IOR. 

Se o opcode IJVC for DUP, POP ou SWAP, a pilha deve ser ajustada. A instrugao DUP apenas duplica a pala¬ 
vra do topo da pilha. Uma vez que o valor dessa palavra ja esta armazenado em TOS, a operagao e tao simples 
quanto incrementar SP para apontar para a nova localizagao e armazenar TOS naquela localizagao. A instrugao 
POP e quase tao simples, apenas decrementa SP para descartar a palavra que esta no topo da pilha. Contudo, 
para manter a palavra do topo em TOS, agora e necessario ler a nova palavra do topo na memoria e escreve-la em 
TOS. Por fim, a instrugao SWAP envolve permutar entre si os valores em duas localizagoes de memoria: as duas 
palavras do topo da pilha. A operagao e facilitada de certa forma pelo fato de o TOS ja conter um desses valores, 
portanto, ele nao precisa ser lido da memoria. Essa instrugao sera discutida com mais detalhes mais adiante. 

A instrugao BIPUSH e um pouco mais complicada porque o opcode e seguido por um unico byte, conforme 
mostra a Figura 4.18. O byte deve ser interpretado como um inteiro com sinal. Esse byte, que ja foi buscado para 
MBR em Mainl , deve ser estendido em sinal para 32 bits e passado para o topo da pilha. Portanto, essa sequencia 
deve estender em sinal o byte em MBR para 32 bits e copia-lo para MDR. Por fim, SP e incrementado e copiado 
para MAR, permitindo que o operando seja escrito para o topo da pilha. No caminho, esse operando tambem 
deve ser copiado para o TOS. Alem disso, antes de retornar para o programa principal, note que o PC deve ser 
incrementado de modo que o proximo opcode estara disponlvel em Mainl. 


Figura 4.18 Formato da instrucao bipush. 


BIPUSH 

(0x10) 


BYTE 


Em seguida, considere a instrugao I LOAD. Ela tambem tern um byte apos o opcode , como ilustra a Figura 
4.19(a), mas esse byte e um Indice (sem sinal) para identificar a palavra no espago de variaveis locais que sera 
passada para a pilha. Uma vez que ha somente 1 byte, apenas 2 8 = 256 palavras podem ser distinguidas, a saber, as 
primeiras 256 palavras no espago de variaveis locais. A instrugao I LOAD requer uma leitura (para obter a palavra), 
bem como uma escrita (para passa-la para o topo da pilha). Para determinar o enderego para leitura, entretanto, 
o deslocamento, contido em MBR, deve ser adicionado ao conteudo de LV. Uma vez que ambos, MBR e LV, so 
podem ser acessados pelo barramento B, LV primeiro e copiado para H (em iloadl), entao MBR e adicionado. O 
resultado dessa adigao e copiado para MAR e uma leitura e iniciada (em iload2). 


Figura 4.19 (a) iload com um indice de 1 byte, (b) wide iload com um indice de 2 bytes. 


I LOAD 
(0x15) 


INDEX 


WIDE 

ILOAD 

INDEX 

INDEX 

(0xC4) 

(0x15) 

BYTE 1 

BYTE 2 


(a) 


(b) 
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Contudo, a utilizagao de MBR como um Indice e um pouco diferente do que em BI PUSH, onde ele era 
estendido em sinal. No caso de um Indice, o deslocamento e sempre positivo, portanto, o deslocamento do byte 
deve ser interpretado como um inteiro sem sinal, diferente de BIPUSH, onde era interpretado como um inteiro 
de 8 bits com sinal. A interface de MBR ao barramento B e projetada para possibilitar ambas as operagoes. No 
caso de BIPUSH (inteiro de 8 bits com sinal), a operagao adequada e a extensao de sinal, isto e, o bit da extrema 
esquerda no MBR de 1 byte e copiado para os 24 bits superiores no barramento B. No caso de I LOAD (inteiro de 
8 bits sem sinal), a operagao adequada e preencher com zeros. Nesse caso, os 24 bits superiores do barramento B 
sao simplesmente fornecidos com zeros. Essas duas operagoes sao distinguidas por sinais separados que indicam 
qual operagao deve ser executada (veja a Figura 4.6). No microcodigo, isso e indicado por MBR (estendido em 
sinal, como em BIPUSH 3) ou MBRU (sem sinal, como em iload2). 

Enquanto esta esperando que a memoria fornega o operando (em iload3), SP e incrementado para conter o 
valor para armazenar o resultado, o novo topo da pilha. Esse valor tambem e copiado para MAR em preparagao 
para escrever o operando para o topo. Mais uma vez, o PC deve ser incrementado para buscar o proximo opcode 
(em iload4). Por fim, MDR e copiado para TOS para refletir o novo topo da pilha (em iload5). 

I STORE e a operagao in versa de I LOAD, isto e, uma palavra e retirada do topo da pilha e armazenada na loca- 
lizagao especificada pela soma de LV e do indice contido na instrugao. Ela usa o mesmo forma to de I LOAD, mos- 
trado na Figura 4.19(a), exceto que o opcode e 0x36 em vez de 0x15. Essa instrugao e um pouco diferente do que 
poderlamos esperar porque a palavra do topo da pilha ja e conhecida (em TOS), portanto, ela pode ser armazenada 
de imediato. Contudo, a nova palavra do topo da pilha deve ser buscada. Assim, sao necessarias uma escrita, bem 
como uma leitura, mas elas podem ser realizadas em qualquer ordem (ou ate em paralelo, se isso fosse posslvel). 

Ambas, ILOAD e ISTORE, sao restritas, ja que so podem acessar as primeiras 256 variaveis locais. Ao passo 
que para grande parte dos programas esse espago de variaveis locais seja mais do que suficiente, claro que e 
necessario poder acessar uma variavel onde quer que ela esteja localizada no espago de variaveis locais. Para fazer 
isso, a IJVM usa o mesmo mecanismo empregado na JVM: um opcode especial WIDE (largo), conhecido como 
byte de prefixo, seguido pelo opcode ILOAD ou ISTORE. Quando essa sequencia ocorre, as definigoes de ILOAD 
e ISTORE sao modificadas, com um indice de 16 bits apos o opcode , em vez de um indice de 8 bits, como mostra 
a Figura 4.19(b). 

WIDE e decodificada do modo usual, levando um desvio para widel que manipula o opcode WIDE. Embora o 
opcode para alargar (ou ampliar - widen ) ja esteja disponivel em MBR, widel busca o primeiro byte apos o opcode , 
porque a logica do microprograma sempre espera que ele esteja ali. Entao, e feito um segundo desvio multivias 
em wide2, agora usando o byte apos a WIDE para despachar. Contudo, ja que WIDE ILOAD requer microcodigo 
diferente do de ILOAD, e WIDE ISTORE requer microcodigo diferente do de ISTORE etc., o segundo desvio mul¬ 
tivias nao pode so usar o opcode como enderego de destino, do mesmo modo que faz Mainl. 

Em vez disso, wide2 efetua uma operagao OR de 0x100 com o opcode enquanto o coloca em MPC. O resulta¬ 
do e que a interpretagao de WIDE ILOAD comega em 0x115 (em vez de 0x15), a interpretagao de WIDE ISTORE 
comega em 0x136 (e nao 0x36) e assim por diante. Desse modo, todo opcode WIDE comega em um enderego 256 
palavras mais alto, isto e, 0x100, no armazenamento de controle que o opcode regular correspondente. A sequen¬ 
cia inicial de microinstrugoes para ambas, ILOAD e WIDE ILOAD, e mostrada na Figura 4.20. 

Uma vez alcangado o codigo para implementar WIDE ILOAD (0x115), a diferenga entre ele e o ILOAD normal 
e apenas que o indice deve ser construido concatenando 2 bytes de indice em vez de simplesmente estender em 
sinal um byte unico. A concatenagao e subsequente adigao devem ser efetuadas em etapas, primeiro copiando 
INDEX BYTE 1 em H deslocado 8 bits para a esquerda. Visto que o indice e um inteiro sem sinal, o MBR e esten¬ 
dido em zeros usando MBRU. Agora, o segundo byte do indice e adicionado (a operagao de adigao e identica a 
concatenagao, ja que o byte de ordem baixa de H agora e zero, garantindo que nao havera vai-um entre os bytes) 
e, de novo, o resultado e armazenado em H. Dai em diante, a operagao pode seguir exatamente como se fosse 
uma ILOAD padrao. Em vez de duplicar as instrugoes finais de ILOAD (iload3 a iload5), apenas desviamos de 
wide_iload4 para iload3. Todavia, note que PC deve ser incrementado duas vezes durante a execugao da instru¬ 
gao de modo que passe a apontar para o proximo opcode. A instrugao ILOAD o incrementa uma vez; a sequencia 
WIDEJLOAD tambem o incrementa uma vez. 
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Figura 4.20 


Sequencia inicial de microinstrucoes para iload e wide iload. Os enderecos sao exemplos. 


Armazenamento 
Enderego d e controle 


0x1 FF 


0x115 

widejloadl 



0x100 

Mainl 



0xC4 

widel 



0x15 

iload 1 

0x00 



Ordem de execugao 
de microinstrugao 

WIDE 
ILOAD ILOAD 
3 


1 1 


2 


2 


A mesma situagao ocorre para WIDEJSTORE: apos a execugao das primeiras quatro microinstrugoes 
(widejstorel ate wide_istore4), a sequencia e a mesma de ISTORE apos as duas primeiras instrugoes, portanto, 
wide_istore4 desvia para istore3. 

Nosso proximo exemplo e uma instrugao LDC_W. Esse opcode tern duas diferengas em relagao a ILOAD. 
A primeira e que ele tern um deslocamento sem sinal de 16 bits (como a versao larga, ou ampliada, de ILOAD). A 
segunda, ele e indexado a partir de CPP em vez de LV, pois sua fungao e ler do conjunto de constantes em vez do 
quadro de variaveis locais. (Na verdade, ha uma forma curta de LDC_W (LDC), mas nao inclulmos em IJVM, ja 
que a forma longa incorpora todas as posslveis variagoes da forma curta, mas toma 3 bytes em vez de 2.) 

A instrugao IINC e a unica da IJVM, exceto a instrugao ISTORE, que pode modificar uma variavel local. Ela 
o faz incluindo dois operandos, cada um de 1 byte de comprimento, como apresenta a Figura 4.21. 


Figura 4.21 A instrucao IINC tem dois compos de operando diferentes. 


IINC 

(0x84) 


INDEX 


CONST 


A instrugao IINC usa INDEX para especificar o deslocamento em relagao ao inlcio do quadro de variaveis 
locais. Ela le aquela variavel, incrementando-a por CONST, um valor contido na instrugao, e volta a armazena-la 
no mesmo local. Note que essa instrugao pode incrementar por uma quantidade negativa, isto e, CONST e uma 
constante de 8 bits com sinal, na faixa -128 a +127. A JVM completa inclui uma versao ampliada da IINC, onde 
cada operando tem 2 bytes de comprimento. 

Agora, chegamos a primeira instrugao de desvio da IJVM: GOTO. A fungao exclusiva dessa instrugao e alterar 
o valor de PC, de modo que a proxima instrugao IJVM executada seja a que esta no enderego calculado adicio- 
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nando o deslocamento de 16 bits (com sinal) ao enderego opcode do desvio. Uma complicagao que surge nesse 
caso e que o deslocamento e relativo ao valor que o PC tinha no inlcio da decodificagao da instrugao, e nao ao 
valor que ele tern depois que os 2 bytes de deslocamento foram buscados. 

Para esclarecer esse ponto, na Figura 4.22(a) vemos a situagao no inlcio de Mainl . O opcode ja esta em MBR, 
mas o PC ainda nao foi incrementado. Na Figura 4.22(b), vemos a situagao no inlcio de gotol . A essa altura, o PC 
ja foi incrementado, mas o primeiro byte do deslocamento ainda nao foi buscado para MBR. Uma microins trugao 
depois, temos a Figura 4.22(c), na qual o antigo PC, que aponta para o opcode , foi salvo em OPC e o primeiro byte 
do deslocamento esta em MBR. Esse valor e necessario porque o deslocamento da instrugao GOTO da IJVM e rela- 
tiva a ele e nao ao valor corrente de PC. Na verdade, essa e a razao primordial por que precisamos do registrador. 


Figura 4.22 Situacao no inicio de varias microinstrucoes. (a) Mainl. (b) gotol. (c) goto2. (d) goto3 (e) goto4. 
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A microinstrugao em goto2 inicia a busca do segundo byte de deslocamento, o que leva a Figura 4.22(d) 
no inlcio de goto3. Depois que o primeiro byte do deslocamento foi deslocado 8 bits para a esquerda e copiado 
para H, chegamos em goto4 e a Figura 4.22(e). Agora, temos o primeiro byte de deslocamento desviado para a 
esquerda em H, o segundo byte de deslocamento em MBR e a base em OPC. Construindo o deslocamento de 
16 bits completo em H e entao o adicionando a base, obtemos o novo enderego para colocar em PC, em goto5. 
Nao se esquega de observar que usamos MBRU em goto4 em vez de MBR porque nao queremos extensao de sinal 
do segundo byte. Na verdade, o deslocamento de 16 bits e construldo efetuando uma operagao OR com as duas 
metades. Por fim, temos de buscar o proximo opcode antes de voltar a Mainl porque o codigo que ali esta espera 
o proximo opcode em MBR. O ultimo ciclo, goto6, e necessario porque os dados da memoria podem ser buscados 
a tempo de aparecer em MBR durante Mainl. 

Os deslocamentos usados na instrugao goto da IJVM sao valores de 16 bits com sinal, com um mlnimo de 
-32768 e um maximo de +32767. Isso significa que desvios para qualquer lado para rotulos mais distantes do que 
esses valores nao sao posslveis. Essa propriedade pode ser considerada um bug ou uma caracterlstica na IJVM (e 
tambem na JVM). A turma do bug diria que a definigao da JVM nao deveria restringir seu estilo de programagao. 
A turma da qualidade diria que o trabalho de muitos programadores sofreria uma melhoria radical se eles tivessem 
pesadelos com a temida mensagem do compilador: 

Program is too big and hairy. You must rewrite it. Compilation aborted. 

(Programa muito grande e confuso. Voce precisa reescreve-lo. Compilagao abortada.) 
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Infelizmente (de nosso ponto de vista), essa mensagem so aparece quando uma clausula then ou else passa 
de 32 KB, o que normalmente representa 50 paginas de Java. 

Agora, considere as tres instrugoes IJVM de desvio condicional: IFLT, IFEQ e IFJCMPEQ. As duas primeiras 
retiram a palavra que esta no topo da pilha, desviando se a palavra for menor do que zero ou igual a zero, respec- 
tivamente. IFJCMPEQ retira as duas palavras do topo da pilha e desvia se, e somente se, elas forem iguais. Em 
todos os tres casos, e necessario ler uma nova palavra do topo da pilha para armazenar no TOS. 

O controle para essas tres instrugoes e semelhante: o operando ou operandos sao primeiro colocados em 
registradores, depois o novo valor do topo de pilha e lido para o TOS e, por fim, sao realizados o teste e o desvio. 
Considere IFLT em primeiro lugar. A palavra a testar ja esta em TOS, porem, como IFLT retira uma palavra da 
pilha, o novo topo tern de ser lido para armazenar em TOS. Essa leitura e iniciada em ifltl . Em iflt2, a palavra a ser 
testada e salva em OPC por enquanto, portanto, o novo valor pode ser colocado em TOS dentro em pouco sem 
perder o valor corrente. Em iflt3, a nova palavra do topo da pilha esta disponlvel em MDR, portanto, e copiada 
para TOS. Por fim, em iflt4, a palavra a ser testada, agora salva em OPC, e passada pela ULA sem ser armazenada 
e o bit N e amostrado e testado. Essa microinstrugao tambem contem um desvio, que escolhe T se o teste foi 
bem-sucedido e F, caso contrario. 

Se bem-sucedido, o restante da operagao e, em essencia, a mesma que no inlcio da instrugao GOTO, e a sequen- 
cia simplesmente continua no meio da sequencia GOTO, com goto2. Se malsucedida, e necessaria uma sequencia 
curta (F, F2 e F3) para pular o resto da instrugao (o deslocamento) antes de voltar a Mainl para continuar com 
a instrugao seguinte. 

O codigo em ifeq2 e ifeq3 segue a mesma logica, so que usando o bit Z em vez do bit N. Em ambos os casos, 
cabe ao assembler de MAL reconhecer que os enderegos T e F sao especiais e garantir que seus enderegos sejam 
colocados em enderegos de armazenamento de controle cuja diferenga seja apenas o bit da extrema esquerda. 

A logica para IFJCMPEQ e bastante semelhante a IFEQ, exceto que nesse caso precisamos ler tambem o 
segundo operando. Esse operando e armazenado em H em ifjcmpeq3, onde a leitura da nova palavra do topo da 
pilha e iniciada. Mais uma vez, a palavra do topo da pilha corrente e salva em OPC e a nova e instalada em TOS. 
Por fim, o teste em if Jcmpeq6 e semelhante a ifeq4. 

Agora, consideramos a execugao de INVOKE VIRTUAL e I RETURN, as instrugoes para invocar um procedimento 
de chamada e retorno, como descrito na Segao 4.2.3. INVOKEVIRTUAL e uma sequencia de 22 microinstrugoes e e a 
mais complexa instrugao realizada em IJVM. Sua operagao foi mostrada na Figura 4.12. A instrugao usa seu desloca¬ 
mento de 16 bits para determinar o enderego do metodo a ser invocado. Em nossa implementagao, esse deslocamento 
e simplesmente um deslocamento no conjunto de cons tan tes. Sua localizagao nesse conjunto aponta o metodo a ser 
invocado. Contudo, lembre-se de que os primeiros 4 bytes de cada metodo nao sao instrugoes, e sim dois ponteiros de 
16 bits. O primeiro da o numero de palavras de parametro - incluindo OBJ REF (veja a Figura 4.12). O segundo da o 
tamanho da area de variaveis locais em palavras. Esses campos sao buscados por meio da porta de 8 bits e montados 
exatamente como se fossem deslocamentos de 16 bits dentro de uma instrugao. 

Entao, a informagao de enlace necessaria para restaurar a maquina a seu estado anterior - o enderego do 
inlcio da area de variaveis antiga e o PC antigo - e armazenada imediatamente acima da area de variaveis locais 
recem-criada e abaixo da nova pilha. Por fim, o opcode da proxima instrugao e buscado e o PC e incrementado 
antes de retornar a Mainl para iniciar a proxima instrugao. 

IRETURN e uma instrugao simples que nao contem operandos. Ela apenas usa o enderego armazenado na 
primeira palavra da area de variaveis locais para recuperar a informagao de ligagao, entao, restaura SP, LV e PC 
a seus valores anteriores e copia o valor de retorno do topo da pilha corrente para o topo da pilha original, con- 
forme ilustra a Figura 4.13. 


4.4 Projeto do nivel de microarquitetura 

Como quase tudo na ciencia da computagao, o projeto da microarquitetura esta repleto de compromissos. 
Computadores tern muitas caracterlsticas desejaveis, entre elas velocidade, custo, confiabilidade, facilidade de 



Caphulo 4 • 0 nivel de microarquitetura 


223 


utilizagao, requisitos de energia e tamanho flsico. Contudo, um compromisso comanda as decisoes mais impor- 
tantes que os projetistas de CPU devem tomar: velocidade versus custo. Nesta segao, estudaremos esse assunto 
detalhadamente, para ver o que pode ser permutado pelo que, que grau de desempenho pode ser alcangado e a que 
prego em hardware e complexidade. 

4.4.1 Velocidade versus custo 

Embora a tecnologia mais rapida tenha resultado no maior dos aumentos de velocidade em qualquer perlo- 
do de tempo considerado, esse assunto nao se enquadra no escopo deste livro. Melhorias de velocidade gragas 
a organizagao, embora menos espetaculares do que as propiciadas por circuitos mais rapidos, ainda assim sao 
impressionantes. Velocidade pode ser medida de varias maneiras, mas dadas uma tecnologia de circuitos e uma 
ISA, ha tres abordagens basicas para aumentar a velocidade de execugao: 

1. Reduzir o numero de ciclos de clock necessarios para executar uma instrugao. 

2. Simplificar a organizagao de modo que o ciclo de clock possa ser mais curto. 

3. Sobrepor a execugao de instrugoes. 

As duas primeiras sao obvias, mas ha uma surpreendente variedade de oportunidades de projeto que pode afe- 
tar drasticamente o numero de ciclos de clock , o perlodo de clock, ou - em grande parte das vezes - ambos. Nesta 
segao, daremos um exemplo de como a codificagao e a decodificagao de uma operagao podem afetar o ciclo de clock. 

O numero de ciclos de clock necessarios para executar um conjunto de operagoes e conhecido como compri- 
mento do caminho. As vezes, o comprimento do caminho pode ser encurtado adicionando-se hardware especiab- 
zado. Por exemplo, adicionando um incrementador - conceitualmente, um somador com um lado ligado de modo 
permanente a “some 1” (add 1) - ao PC, nao precisamos mais usar a ULA para fazer avangar o PC, eliminando 
ciclos. O prego a pagar e mais hardware. Todavia, essa capacidade nao ajuda tanto como seria de esperar. Na 
maioria das instrugoes, os ciclos consumidos para incrementar o PC tambem sao ciclos em que uma operagao de 
leitura esta sendo executada. Em todo caso, a instrugao seguinte nao pode ser executada mais cedo porque ela 
depende dos dados que vem da memoria. 

Reduzir o numero de ciclos de instrugao necessarios para buscar instrugoes requer mais do que apenas um 
circuito adicional para incrementar o PC. Para acelerar a busca de instrugao em qualquer grau significativo, a 
terceira tecnica - sobreposigao de execugao - deve ser explorada. Separar o circuito de busca de instrugoes - a 
porta de memoria de 8 bits e os registradores MBR e PC - e mais efetivo se, em termos funcionais, a unidade for 
montada independentemente do caminho de dados principal. Desse modo, ela pode buscar o proximo opcode 
ou operando por conta propria, talvez ate mesmo executando fora de sincronia em relagao ao restante da CPU e 
buscando uma ou mais instrugoes com antecedencia. 

Uma das fases que mais consome o tempo da execugao de muitas das instrugoes e buscar um deslocamento 
de 2 bytes, estende-lo adequadamente e acumular no registrador H em preparagao para uma adigao, por exemplo, 
em um desvio para PC ± n bytes. Uma solugao potencial - construir uma porta de memoria de 16 bits de largu- 
ra - complica muito a operagao porque, na verdade, a memoria tern 32 bits de largura. Os 16 bits necessarios 
podem se espalhar por fronteiras de palavras, de modo que ate mesmo uma unica leitura de 32 bits nao buscara 
necessariamente ambos os bytes necessarios. 

Sobrepor a execugao de instrugoes e, de longe, o mais interessante e oferece a melhor oportunidade para 
drasticos aumentos de velocidade. A simples sobreposigao da busca e execugao de instrugoes da um resultado 
surpreendentemente efetivo. Entretanto, tecnicas mais sofisticadas avangam muito mais, sobrepondo a execugao 
de muitas instrugoes. Na verdade, essa ideia esta no coragao do projeto de computadores modernos. Mais adiante, 
discutiremos algumas das tecnicas basicas para sobrepor a execugao de instrugoes e apresentaremos o motivo 
para as mais sofisticadas. 
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Velocidade e apenas uma metade do quadro; custo e a outra. O custo pode ser medido de varios modos, 
mas uma definigao precisa e problematica. Algumas medidas sao muito simples, tal como uma contagem do 
numero de componentes, o que era valido em particular na epoca em que os processadores eram compostos de 
componentes discretos, que eram comprados e montados. Hoje, o processador inteiro esta contido em um unico 
chip, mas chips maiores e mais complexos sao muito mais caros do que os menores, mais simples. Componentes 
individuais - por exemplo, transistores, portas ou unidades funcionais - podem ser contados, mas quase sempre 
o numero resultante nao e tao importante quanto a quantidade de area requerida no circuito integrado. Quanto 
mais area for requerida para as fungoes incluldas, maior sera o chip, e o custo de fabricagao deste cresce com 
rapidez muito maior do que sua area. Por essa razao, projetistas costumam falar de custo em termos utilizados na 
area imobiliaria, isto e, a area exigida por um circuito (imagino que seja medida em pico-hectares). 

Um dos circuitos mais exaustivamente estudados na historia e o somador binario. Ha milhares de projetos 
e os mais rapidos sao muito mais velozes do que os mais lentos - e tambem muito mais complexos. O projetista 
de sistemas tern de decidir se a maior velocidade vale o prego do espago. 

Somadores nao sao os unicos componentes que tern muitas opgoes. Praticamente qualquer componente do 
sistema pode ser projetado para executar de modo mais rapido ou mais lento, com um diferencial de custo. O 
desafio para o projetista e identificar os componentes que mais podem melhorar o sistema e entao aumentar a 
velocidade deles. O interessante e que muitos componentes individuais podem ser substituldos por um muito 
mais veloz e causar pouco ou nenhum efeito sobre a velocidade. Nas segoes seguintes, examinaremos algumas 
das questoes de projeto e os compromissos correspondentes. 

Um dos fatores fundamentals para determinar a velocidade em que um clock pode executar e a quantidade 
de trabalho que deve ser realizada em cada ciclo de clock. E obvio que, quanto mais trabalho a ser realizado, 
mais longo sera o ciclo. Claro que nao e assim tao simples, porque o hardware e muito bom para fazer coisas em 
paralelo. Portanto, na verdade, o que determina o comprimento do ciclo de clock e a sequencia de operagoes que 
devem ser executadas em serie em um unico ciclo. 

Um aspecto que pode ser controlado e a quantidade de decodificagao que deve ser realizada. Lembre-se, por 
exemplo, de que na Figura 4.6 vimos que, embora qualquer um de nove registradores pudesse ser lido para a 
ULA a partir do barramento B, precisavamos de apenas 4 bits na palavra de microins trugao para especificar qual 
registrador devia ser selecionado. Infelizmente, essas economias tern um prego. O circuito de decodificagao agrega 
atraso ao caminho crltico, e isso significa que qualquer registrador que habilite seus dados para o barramento B 
recebera o comando um pouquinho mais tarde e obtera seus dados no barramento um pouquinho mais tarde. 
Isso provoca um efeito em cascata, com a ULA recebendo suas entradas um pouco mais tarde e produzindo seus 
resultados um pouco mais tarde. Por fim, o resultado estara disponlvel no barramento C para ser escrito nos regis¬ 
tradores tambem um pouco mais tarde. Como esse atraso muitas vezes e o fator que determina o comprimento do 
ciclo de clock , isso pode significar que o clock nao pode funcionar com tanta rapidez e todo o computador deve 
funcionar um pouco mais lentamente. Assim, ha uma permuta entre velocidade e custo. A redugao do armaze- 
namento de controle em 5 bits por palavra e obtida ao custo da redugao da velocidade do clock. O engenheiro 
deve levar em conta os objetivos do projeto ao decidir qual e a opgao correta. Para uma implementagao de alto 
desempenho, usar um decodificador talvez nao seja uma boa ideia; para uma de baixo custo, pode ser. 

4.4.2 Reducao do comprimento do caminho de execucao 

A Mic-1 foi projetada para ser moderadamente simples e moderadamente rapida, embora admitamos que ha 
uma enorme tensao entre esses dois objetivos. Em poucas palavras, maquinas simples nao sao rapidas e maquinas 
rapidas nao sao simples. A CPU da Mic-1 tambem usa uma quantidade minima de hardware: 10 registradores, a 
ULA simples da Figura 3.19 repetida 32 vezes, um deslocador, um decodificador, um armazenamento de controle 
e um pouquinho de cola aqui e ali. O sistema inteiro poderia ser montado com menos de 5.000 transistores mais 
o tanto que o armazenamento de controle (ROM) e a memoria principal (RAM) precisarem. 

Agora que ja vimos como IJVM pode ser executada de modo direto em microcodigo com pouco hardware, e 
hora de examinar implementagoes alternativas, mais rapidas. A seguir, vamos estudar modos de reduzir o numero 
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de microinstrugoes por instrugao ISA (isto e, reduzir o comprimento do caminho de execugao). Depois disso, 
vamos considerar outras tecnicas. 

• Incorporacao do laco do interpretador ao microcodigo 

Na Mic-1, o lago principal consiste em uma microinstrugao que deve ser executada no inlcio de cada ins¬ 
trugao IJVM. Em alguns casos, e posslvel sobrepo-la a instrugao anterior. Na verdade, isso ja foi conseguido, ao 
menos em parte. Note que, quando Mainl e executada, o opcode a ser interpretado ja esta em MBR. O opcode esta 
ali porque foi buscado pelo lago principal anterior (se a instrugao anterior nao tinha operandos) ou durante a 
execugao da instrugao anterior. 

Esse conceito de sobrepor o inlcio da instrugao pode ser levado mais adiante e, na realidade, em alguns casos 
o lago principal pode ser reduzido a nada. Isso pode ocorrer da seguinte maneira. Considere cada sequencia de 
microinstrugoes que termina desviando para Mainl . Em cada lugar, a microinstrugao do lago principal pode ser 
agregada ao final da sequencia, em vez de ao inlcio da proxima, e o desvio multivias agora e repetido em muitos 
lugares, mas sempre com o mesmo conjunto de alvos. Em alguns casos, a microinstrugao Mainl pode ser incor- 
porada a microinstrugoes anteriores, ja que elas nem sempre sao totalmente utilizadas. 

Na Figura 4.23, e mostrada a sequencia dinamica de instrugoes para uma instrugao POP. O lago principal 
ocorre antes e depois de cada instrugao; na figura, mostramos apenas a ocorrencia apos a instrugao POP. Note 
que a execugao dessa instrugao leva quatro ciclos de clock : tres para as microinstrugoes especlficas para POP e 
um para o lago principal. 


Figura 4.23 Sequencia original de microprograma para executor POP. 


1 Rotulo 

Operagdes 

Comentarios j 

popl 

MAR = SP = SP- 1; rd 

Leia a palavra seguinte a do topo da pilha 

pop2 


Espere novo TOS ser lido da memoria 

pop3 

TOS = MDR; goto Mainl 

Copie nova palavra para TOS 

Mainl 

PC = PC + 1; fetch; goto (MBR) 

MBR contem o opcode ; obtenha proximo byte; despache 


Na Figura 4.24, a sequencia foi reduzida a tres instrugoes que incorporam as instrugoes do lago principal, 
aproveitando um ciclo de clock no qual a ULA nao e usada em pop2 para economizar um ciclo e novamente em 
Mainl . Nao se esquega de observar que o final dessa sequencia desvia diretamente para o codigo especlfico para a 
instrugao seguinte, portanto, sao requeridos apenas tres ciclos no total. Esse pequeno estratagema reduz em um 
ciclo o tempo de execugao da proxima microinstrugao; portanto, por exemplo, uma IADD subsequente passa de 
quatro ciclos para tres. Assim, isso equivale a aumentar a velocidade do clock de 250 MHz (microinstrugoes de 4 
ns) para 333 MHz (microinstrugoes de 3 ns) sem pagar nada. 


Figura 4.24 SequSncia de microprograma melhorada para executor pop. 


Rotulo 

Operagdes 

Comentarios 

popl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

Mainl .pop 

PC = PC + 1; fetch 

MBR contem opcode ; busque proximo byte 

pop3 

TOS = MDR; goto (MBR) 

Copie nova palavra para TOS; despache em opcode 
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A instrugao POP se encaixa particularmente nesse tratamento porque ela tem um ciclo ocioso no meio que nao 
usa a ULA. Contudo, o lago principal usa a ULA. Por isso, reduzir o comprimento da instrugao por um fa tor dentro 
dela requer achar um ciclo na instrugao no qual a ULA nao esta em uso. Esses ciclos ociosos nao sao comuns, mas 
ocorrem; portanto, vale a pena incorporar Mainl ao final de cada sequencia de microins trugao. Tudo isso custa um 
pouco de armazenamento de controle. Assim, temos nossa primeira tecnica para reduzir o comprimento do caminho: 

Incorpore o Iclqo do interpretador ao final de cada sequencia de microcodigo. 

• Arquitetura de tres barramentos 

O que mais podemos fazer para reduzir o comprimento do caminho de execugao? Outra solugao facil e ter 
dois barramentos completos de entrada para ULA, um barramento A e um B, o que da tres barramentos no total. 
Todos os registradores (ou ao menos a maioria deles) devem ter acesso a ambos os barramentos de entrada. A 
vantagem de ter dois barramentos de entrada e que entao e posslvel adicionar qualquer registrador a qualquer 
outro registrador em um so ciclo. Para ver o valor dessa caracterlstica, considere a execugao de I LOAD na Mic-1, 
apresentada novamente na Figura 4.25. 


Figura 4.25 Codigo Mic-1 para executor iload. 


Rotulo 

Operagdes 

Comentarios 

iloadl 

H = LV 

MBR contem fndice; copie LV para H 

iload2 

MAR = MBRU + H; rd 

MAR = enderego de variaveis locais a buscar 

iload3 

MAR = SP = SP + 1 

SP aponta para novo topo da pilha; prepare escrita 

iload4 

PC = PC + 1; fetch; wr 

Incremente PC; obtenha novo opcode ; escreva topo da pilha 

iload5 

TOS = MDR; goto Mainl 

Atualize TOS 

Mainl 

PC = PC + 1; fetch; goto (MBR) 

MBR contem opcode ; obtenha proximo byte; despache 


Vemos aqui que, em iloadl, LV e copiado para H. A unica razao para LV ser copiado para H e que, assim, ele 
poder ser adicionado a MBRU em iload2. Em nosso projeto original de dois barramentos, nao ha nenhum modo 
de adicionar registradores arbitrarios, portanto, primeiro um deles tem de ser copiado para H. Com nosso novo 
projeto de tres barramentos, podemos economizar um ciclo, conforme mostra a Figura 4.26. Nesse caso, adi- 
cionamos o lago do interpretador a ILOAD, mas isso nem aumenta nem diminui o comprimento do caminho de 
execugao. Ainda assim, o barramento adicional reduziu o tempo total de execugao de ILOAD de seis para cinco 
ciclos. Agora, temos nossa segunda tecnica para reduzir o comprimento de caminho: 

Passe de um projeto de dois barramentos para um projeto de tres barramentos. 


Figura 4.26 Codigo de tres barramentos para executor iload. 


Rotulo 

Operagoes 

Comentarios 

iloadl 

MAR = MBRU + LV; rd 

MAR = enderego de variavel local a buscar 

iload2 

MAR = SP = SP + 1 

SP aponta para novo topo da pilha; prepare escrita 

iload3 

PC = PC + 1; fetch; wr 

Incremente PC; obtenha novo opcode ; escreva topo da pilha 

iload4 

TOS = MDR 

Atualize TOS 

iload5 

PC = PC + 1; fetch; goto (MBR) 

MBR ja contem opcode ; busque byte de fndice 
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• Unidade de busca de instrucao 

Vale a pena usar essas duas tecnicas, mas, para conseguir uma melhoria drastica, precisamos de algo muito 
mais radical. Vamos voltar atras um pouco e examinar as partes comuns de toda instrugao: a busca e a decodifi- 
cagao dos campos da instrugao. Observe que, para cada instrugao, podem ocorrer as seguintes operagoes: 

1. O PC e passado pela ULA e incrementado. 

2. O PC e usado para buscar o proximo byte na sequencia de instrugoes. 

3. Operandos sao lidos da memoria. 

4. Operandos sao escritos para a memoria. 

5. A ULA efetua um calculo e os resultados sao armazenados de volta. 

Se uma instrugao tiver campos adicionais (para operandos), cada campo deve ser buscado explicitamente, 
um byte por vez, e montado antes de poder ser usado. Buscar e montar um campo ocupa a ULA por no mlnimo 
um ciclo por byte para incrementar o PC, e entao de novo para montar o Indice ou deslocamento resultante. A 

ULA e usada em praticamente todos os ciclos para uma serie de operagoes que tern a ver com buscar a instrugao 

e montar os campos dentro da instrugao, alem do “trabalho” real da instrugao. 

Para sobrepor o lago principal, e necessario liberar a ULA de algumas dessas tarefas. Isso poderia ser feito 
com a introdugao de uma segunda ULA, embora nao seja necessaria uma completa para grande parte da atividade. 
Observe que, em muitos casos, ela e apenas usada como um caminho para copiar um valor de um registrador para 
outro. Esses ciclos poderiam ser eliminados introduzindo-se caminhos de dados adicionais que nao passem pela 
ULA. Como exemplo, pode-se conseguir algum beneflcio criando um caminho de TOS a MDR, oudeMDRa TOS, 
uma vez que a palavra do topo da pilha e muitas vezes copiada entre esses dois registradores. 

Na Mic-1, grande parte da carga pode ser retirada da ULA criando uma unidade independente para buscar e 
processar as instrugoes. Essa unidade, denomina IFU (Instruction Fetch Unit - unidade de busca de instrugao), 
pode incrementar o PC independentemente e buscar bytes antes de eles serem necessarios. Essa unidade requer 
apenas um incrementador, um circuito muito mais simples do que um somador completo. Levando essa ideia 
mais adiante, a IFU tambem pode montar operandos de 8 e 16 bits de modo que eles estejam prontos para uso 
imediato sempre que necessario. Ha no mlnimo dois modos de fazer isso: 

1. A IFU pode interpretar cada opcode , determinando quantos campos adicionais devem ser buscados, e 
monta-los em um registrador pronto para a utilizagao pela unidade de execugao principal. 

2. A IFU pode aproveitar a natureza sequencial das instrugoes e disponibilizar os proximos fragmentos de 
8 e 16 bits todas as vezes, quer isso tenha ou nao algum sentido. Entao, a unidade de execugao principal 
pode requisitar o que precisar. 

Mostramos os rudimentos do segundo esquema na Figura 4.27. Em vez de um unico MBR de 8 bits, agora ha 
dois MBRs: o MBR1 de 8 bits e o MBR2 de 16 bits. A IFU monitora o(s) byte(s) mais recentemente consumido(s) 
pela unidade de execugao principal. Tambem disponibiliza o proximo byte em MBR1 como na Mic-1, exceto que 
percebe automaticamente quando MBR1 e lido, busca o proximo byte por antecipagao e o carrega em MBR1 de 
imediato. Como na Mic-1, ela tern duas interfaces com o barramento B: MBR1 eMBRIU.A primeira e estendida 
em sinal para 32 bits; a outra e estendida para zero. 

De modo semelhante, o MBR2 oferece a mesma funcionalidade, mas contem os proximos 2 bytes. Tambem 
tern duas interfaces com o barramento B: MBR2 e MBR2U, que copiam os valores de 32 bits estendidos em sinal 
e estendidos em zeros, respectivamente. 

A IFU e responsavel por buscar uma sequencia de bytes, e faz isso usando uma porta de memoria con- 
vencional de 4 bytes, buscando palavras inteiras de 4 bytes antes da hora e carregando os bytes consecutivos 
em um registrador de deslocamento que os fornece um ou dois por vez, na ordem em que foram buscados. A 
fungao do registrador de deslocamento e manter uma fila de bytes da memoria, para alimentar MBR1 e MBR2. 
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Figura 4.27 


Unidade de busca para a Mic-1. 


MBR2 



Barramento B 


Em todas as vezes, MBR1 contem o byte mais antigo no registrador de deslocamento e MBR2 contem os 2 
bytes mais antigos (byte mais antigo na esquerda), para formar um inteiro de 16 bits (veja a Figura 4.19(b)). 
Os 2 bytes em MBR2 podem ser de palavras de memoria diferentes, porque instrugoes IJVM nao se alinham em 
fronteiras de palavras na memoria. 

Sempre que MBR1 e lido, o registrador de deslocamento desloca 1 byte para a direita. Sempre que MBR2 e lido, 
ele desloca 2 bytes para a direita. Entao, MBR1 e MBR2 sao recarregados a partir do byte mais antigo e do par de 
bytes mais antigo, respectivamente. Se agora restar espago suficiente no registrador de deslocamento para mais outra 
palavra inteira, a IFU inicia um ciclo de memoria para le-la. Admitimos que, quando qualquer um dos registradores 
MBR e lido, ele e preenchido outra vez no inlcio do ciclo seguinte, de modo que pode ser lido em ciclos consecutivos. 

O projeto da IFU pode ser modelado por uma FSM (Finite State Machine - maquina de estado finito), 
como ilustra a Figura 4.28. Todas as FSMs consistem em duas partes: estados, representados por clrculos, e 
transigoes, representadas por arcos que vao de um estado a outro. Cada estado representa uma situagao posslvel 
na qual a FSM pode estar. Essa FSM particular tern sete estados, correspondentes aos estados do registrador de 
deslocamento da Figura 4.27. Os sete estados correspondem a quantidade de bytes que estao naquele registrador 
no momento em questao, um numero entre 0 e 6, inclusive. 

Cada arco representa um evento que pode ocorrer. Tres eventos diferentes podem ocorrer nesse caso. O pri- 
meiro deles e a leitura de 1 byte do MBR1 . Esse evento faz o registrador de deslocamento ser ativado e 1 byte ser 
deslocado para fora da extremidade direita, que reduz o estado por um fator de 1. O segundo evento e a leitura 
de 2 bytes do MBR2, o que reduz o estado por um fator de dois. Essas duas transigoes fazem MBR1 e MBR2 serem 
recarregados. Quando a FSM passa para os estados 0, 1 ou 2, e iniciada uma referenda a memoria para buscar 
uma nova palavra (considerando que a memoria ja nao esteja ocupada lendo uma). A chegada da palavra adianta 
o estado por um fator de 4. 

Para trabalhar corretamente, a IFU deve bloquear quando requisitada a fazer algo que nao pode, tal como for- 
necer o valor de MBR2 quando ha somente 1 byte no registrador de deslocamento e a memoria ainda esta ocupada 
buscando uma nova palavra. Alem disso, ela so pode fazer uma coisa por vez, portanto, eventos que estao chegan- 
do devem ser serializados. Por fim, sempre que o PC e alterado, a IFU deve ser atualizada. Esses detalhes a tornam 
mais complicada do que mostramos. Ainda assim, muitos dispositivos de hardware sao construldos como FSMs. 
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Figura 4.28 Maquina de estado finito para implementor a IFU. 


Palavra buscada 



Transigoes 

MBR1: ocorre quando MBR1 e lido 
MBR2: ocorre quando MBR2 e lido 

Palavra buscada: ocorre quando uma palavra da memoria e lida e 4 bytes sao colocados 
no registrador de deslocamento 


A IFU tem seu proprio registrador de enderego de memoria, denominado I MAR, que e usado para enderegar 
a memoria quando uma nova palavra tem de ser buscada. Esse registrador tem seu proprio incrementador dedi- 
cado, de modo que a ULA principal nao e necessaria para incrementa-lo nem para buscar a proxima palavra. A 
IFU deve monitorar o barramento C de modo que, sempre que PC for carregado, o novo valor de PC e copiado 
para I MAR. Uma vez que o novo valor em PC pode nao estar sobre uma fronteira de palavra, a IFU tem de buscar 
a palavra necessaria e fazer o ajuste adequado do registrador de deslocamento. 

Com a IFU, a unidade de execugao principal escreve para o PC somente quando for necessario alterar a natu- 
reza sequencial do fluxo de bytes da instrugao. Ela escreve por causa de uma instrugao de desvio bem-sucedida 
e em virtude da INVOKEVIRTUAL e IRETURN. 

Ja que o microprograma nao mais incrementa o PC explicitamente, porque opcodes sao buscados, a IFU deve 
manter o PC atualizado. Ela o faz percebendo quando um byte da instrugao foi consumido, isto e, quando MBR1 
ou MBR2, ou as versoes sem sinal, foram lidos. Associado com o PC ha um incrementador separado, capaz de 
incrementar por fatores de 1 ou 2, dependendo de quantos bytes foram consumidos. Assim, o PC sempre contem 
o enderego do primeiro byte que nao foi consumido. No inlcio de cada instrugao, MBR contem o enderego do 
opcode para aquela instrugao. 

Note que ha dois incrementadores separados e eles executam fungoes diferentes. O PC conta bytes e incre¬ 
menta por um fa tor de 1 ou 2. O I MAR conta palavras, e incrementa somente por um fator de 1 (para 4 bytes 
novos). Como o MAR, o I MAR esta ligado “obliquamente” ao barramento de enderego, sendo que o bit 0 do I MAR 
esta conectado a linha de enderego 2, e assim por diante, para efetuar uma conversao impllcita de enderegos de 
palavras para enderegos de bytes. 

Como detalharemos em breve, nao ter de incrementar o PC no lago principal representa um grande ganho, 
porque a microins trugao na qual ele e incrementado costuma fazer pouco mais do que isso. Se tal microinstrugao 
puder ser eliminada, o caminho de execugao pode ser reduzido. Nesse caso, a permuta e mais hardware por uma 
maquina mais rapida, portanto, nossa terceira tecnica para reduzir o comprimento do caminho e: 

Busque instrugoes na memoria com uma unidade funcional especializada. 

4.4.3 0 projeto com busca antecipada: a Mic-2 

A IFU pode reduzir muito o comprimento do caminho da instrugao media. Primeiro, ela elimina todo o lago 
principal, visto que o final de cada instrugao apenas desvia diretamente para a proxima. Segundo, evita ocupar 
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a ULA com a tarefa de incrementar o PC. Terceiro, reduz o comprimento do caminho sempre que um Indice de 
16 bits ou um deslocamento e calculado, porque ela monta o valor de 16 bits e o passa diretamente para a ULA 
como um valor de 32 bits, evitando a necessidade de montagem em H. A Figura 4.29 mostra a Mic-2, uma versao 
melhorada da Mic-1 a qual foi acrescentada a IFU da Figura 4.27. O microcodigo para a maquina melhorada e 
ilustrado na Figura 4.30. 


Figura 4.29 


0 caminho de dados para a Mic-2. 
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Figura 4.30 Microprograma para a Mic-2. 


Rotulo 

Operacoes 

Comentarios 

nopl 

goto (MBR) 

Desvie para a proxima instrugao 

iaddl 

iadd2 

iadd3 

MAR = SP = SP- 1; rd 

H = TOS 

MDR = TOS = MDR + H; wr; goto (MBR1) 

Leia a palavra seguinte a do topo da pilha 

H = topo da pilha 

Some duas palavras do topo; escreva para novo topo da 
pilha 

isubl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

isub2 

H = TOS 

H = topo da pilha 

isub3 

MDR = TOS = MDR - H; wr; goto (MBR1) 

Subtraia TOS da palavra anterior na pilha 

iandl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

iand2 

H = TOS 

H = topo da pilha 

iand3 

MDR = TOS = MDR AND H; wr; goto (MBR1) 

AND palavra anterior da pilha com TOS 

iorl 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

ior2 

H = TOS 

H = topo da pilha 

ior3 

MDR = TOS = MDR OR H; wr; goto (MBR1) 

OR palavra anterior da pilha com TOS 

dupl 

MAR = SP = SP + 1 

Incremente SP; copie para MAR 

dup2 

MDR = TOS; wr; goto (MBR1) 

Escreva nova palavra da pilha 

popl 

Pop2 

MAR = SP = SP - 1; rd 

Leia a palavra seguinte a do topo da pilha 

Espere pela leitura 

pop3 

TOS = MDR; goto (MBR1) 

Copie nova palavra para TOS 

swapl 

MAR = SP - 1; rd 

Leia a segunda palavra da pilha; ajuste MAR para SP 

swap2 

MAR = SP 

Prepare para escrever nova 2 a palavra 

swap3 

H = MDR; wr 

Salve novo TOS; escreva 2 a palavra para pilha 

swap4 

MDR = TOS 

Copie antigo TOS para MDR 

swap5 

MAR = SP - 1; wr 

Escreva antigo TOS para 2 2 lugar na pilha 

swap6 

TOS = H; goto (MBR1) 

Atualize TOS 

bipushl 

SP = MAR = SP + 1 

Ajuste MAR para escrever para novo topo da pilha 

bipush2 

MDR = TOS = MBR1; wr; goto (MBR1) 

Atualize pilha em TOS e memoria 

iloadl 

MAR = LV + MBR1U; rd 

Passe LV + fndice para MAR; leia operando 

iload2 

MAR = SP = SP + 1 

Incremente SP; passe novo SP para MAR 

iload3 

TOS = MDR; wr; goto (MBR1) 

Atualize pilha em TOS e memoria 

istorel 

MAR = LV + MBR1U 

Ajuste MAR para LV + fndice 

istore2 

MDR = TOS; wr 

Copie TOS para armazenamento 

istore3 

istore4 

MAR = SP = SP - 1; rd 

Decremente SP; leia novo TOS 

Espere por leitura 

istore5 

TOS = MDR; goto (MBR1) 

Atualize TOS 
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Rotulo 

Operacoes 

Comentarios 

widel 

goto (MBR1 OR 0x100) 

Proximo enderego e 0x100 com operagao OR efetuada com 
opcode 

widejloadl 

MAR = LV + MBR2U; rd; goto iload2 

Identica a iloadl mas usando fndice de 2 bytes 

widejstorel 

MAR = LV + MBR2U; goto istore2 

Identica a istorel mas usando fndice de 2 bytes 

Idc_w1 

MAR = CPP + MBR2U; rd; goto iload2 

O mesmo que widejloadl mas indexando a partir de CPP 

iincl 

MAR = LV + MBR1U; rd 

Ajuste MAR para LV + fndice para leitura 

iinc2 

H = MBR1 

Ajuste H para constante 

iinc3 

MDR = MDR + H; wr; goto (MBR1) 

Incremente por constante e atualize 

gotol 

i 

O 

CL 

II 

X 

Copie PC para H 

goto2 

PC = H + MBR2 

Some deslocamento e atualize PC 

goto3 


Tern de esperar que IFU busque novo opcode 

goto4 

goto (MBR1) 

Despache para a proxima instrugao 

ifltl 

MAR = SP = SP - 1 ; rd 

Leia a palavra seguinte a do topo da pilha 

iflt2 

OPC = TOS 

Salve TOS em OPC temporariamente 

iflt3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

iflt4 

N = OPC; if (N) goto T; else goto F 

Desvie no bit N 

ifeql 

MAR = SP = SP - 1 ; rd 

Leia a palavra seguinte a do topo da pilha 

ifeq2 

OPC = TOS 

Salve TOS em OPC temporariamente 

ifeq3 

TOS = MDR 

Ponha novo topo da pilha em TOS 

ifeq4 

Z = OPC; if (Z) goto T; else goto F 

Desvie no bit Z 

ifjcmpeql 

MAR = SP = SP - 1 ; rd 

Leia a palavra seguinte a do topo da pilha 

if_icmpeq2 

MAR = SP = SP - 1 

Ajuste MAR para ler novo topo da pilha 

if_icmpeq3 

H = MDR; rd 

Copie segunda palavra da pilha para H 

if_icmpeq4 

OPC = TOS 

Salve TOS em OPC temporariamente 

if_icmpeq5 

TOS = MDR 

Ponha novo topo da pilha em TOS 

if_icmpeq6 

Z = H - OPC; if (Z) goto T; else goto F 

Se 2 palavras do topo forem iguais, va para T, senao va para F 

T 

H = PC — 1; goto goto2 

O mesmo que gotol 

F 

H = MBR2 

Toque bytes em MBR2 para descartar 

F2 

goto (MBR1) 


invokevirtuall 

MAR = CPP + MBR2U; rd 

Ponha enderego de ponteiro de metodo em MAR 

invokevirtual2 

OPC = PC 

Salve Return PC em OPC 

invokevirtual3 

PC = MDR 

Ajuste PC para I 2 byte do codigo de metodo 

invokevirtual4 

TOS = SP - MBR2U 

TOS = enderego de OBJREF - 1 

invokevirtual5 

TOS = MAR = H = TOS + 1 

TOS = enderego de OBJREF 

invokevirtual6 

MDR = SP + MBR2U + 1; wr 

Sobrescreva OBJREF com ponteiro de ligagao 

invokevirtual7 

MAR = SP = MDR 

Ajuste SP, MAR a localizagao para conter PC antigo 


















Caphulo 4 • 0 nivel de microarquitetura 


233 


Rotulo 

Operacoes 

Comentarios 

invokevirtual8 

MDR = OPC; wr 

Prepare para salvar PC antigo 

invokevirtual9 

MAR = SP = SP + 1 

Incremente SP para apontar para a localizagao para conter LV 
antigo 

invokevirtuallO 

MDR = LV; wr 

Salve LV antigo 

invokevirtuall 1 

LV = TOS; goto (MBR1) 

Ajuste LV para apontar para o parametro de ordem zero 

ireturn 1 

ireturn2 

MAR = SP = LV; rd 

Reajuste SP, MAR para ler ponteiro de ligagao 

Espere por ponteiro de ligagao 

ireturn3 

LV = MAR = MDR; rd 

Ajuste LV, MAR para ponteiro de ligagao; leia PC antigo 

ireturn4 

MAR = LV + 1 

Ajuste MAR para apontar para LV antigo; leia LV antigo 

ireturn5 

PC = MDR; rd 

Restaure PC 

ireturn6 

MAR = SP 


ireturn7 

LV = MDR 

Restaure LV 

ireturn8 

MDR = TOS; wr; goto (MBR1) 

Salve valor de retorno no topo da pilha original 


Como exemplo do modo de funcionamento da Mic-2, examine a IADD. Ela pega a segunda palavra em uma 
pilha e efetua a adigao como antes, so que agora, quando termina, ela nao tern de ir ate Mainl para incremen- 
tar PC e despachar para a proxima microinstrugao. Quando a IFU ve que MBR1 foi referenciado em iadd3, seu 
registrador de deslocamento interno empurra tudo para a direita e recarrega MBR1 e MBR2. Ela tambem faz a 
transigao para um estado um grau mais baixo do que o corrente. Se o novo estado for 2, a IFU comega a buscar 
uma palavra da memoria. Tudo isso e feito em hardware - o microprograma nao tern de fazer nada. E por isso 
que a IADD pode ser reduzida de quatro para tres microinstrugoes. 

A Mic-2 melhora algumas instrugoes mais do que outras. LDC_W passa de nove microinstrugoes para ape- 
nas tres, reduzindo seu tempo de execugao por um fa tor de tres. Por outro lado, SWAP so passa de oito para seis 
microinstrugoes. O que de fa to conta para o desempenho geral e o ganho para as instrugoes mais comuns. Podemos 
citar ILOAD (eram 6, agora sao 3), IADD (eram 4, agora sao 3) e IFJCMPEQ (eram 13, agora sao 10 para o caso 
do desvio tornado; eram 10, agora sao 8 para o caso do desvio nao tornado). Para medir a melhoria, terlamos de 
escolher e executar alguns padroes de comparagao, mas e claro que tudo isso representa um grande ganho. 

4.4.4 Projeto com pipeline : a Mic-3 

A Mic-2 e uma melhoria clara em relagao a Mic-1. E mais rapida e usa menos armazenamento de controle, em- 
bora o custo da IFU sem duvida seja maior do que o ganho obtido por ter um armazenamento de controle menor. 
Portanto, ela e uma maquina bem mais rapida por um prego pouca coisa mais alto. Vamos ver se podemos faze-la 
ficar ainda mais rapida. 

Que tal tentar reduzir o tempo de ciclo? Ele e determinado, em consideravel proporgao, pela tecnologia sub- 
jacente. Quanto menores os transistores e mais curtas as distancias flsicas entre eles, mais rapidamente o clock 
pode ser executado. Para uma determinada tecnologia, o tempo requerido para executar uma operagao completa 
de caminho de dados e fixo (ao menos de nosso ponto de vista). Ainda assim, temos certa liberdade e em breve 
a exploraremos ao maximo. 

Nossa outra opgao e introduzir mais paralelismo na maquina. No momento, a Mic-2 e altamente sequencial. 
Ela coloca registradores em seus barramentos, espera que a ULA e o deslocador os processem para depois escrever 
os resultados de volta nos registradores. Exceto pela IFU, ha pouco paralelismo presente. Adicionar paralelismo 
e uma oportunidade real. 
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Como ja dissemos, o ciclo de clock e limitado pelo tempo necessario para que os sinais se propaguem pelo 
caminho de dados. A Figura 4.3 mostra um desdobramento do atraso em varios componentes durante cada ciclo. 
Ha tres componentes importantes no ciclo do caminho de dados propriamente dito: 

1. O tempo para levar os registradores selecionados ate os barramentos A e B. 

2. O tempo para que a ULA e o deslocador realizem seu trabalho. 

3. O tempo para os resultados voltarem aos registradores e serem armazenados. 

Na Figura 4.31, mostramos uma nova arquitetura e tres barramentos, incluindo a IFU, mas com tres regis¬ 
tradores adicionais, cada um inserido no meio de cada barramento. Os registradores sao escritos em todo o ciclo. 
Na realidade, eles repartem o caminho de dados em partes distintas que agora podem funcionar de modo inde- 
pendente. Denominaremos isso Mic-3, ou modelo pipeline. 


Figura 4.31 


Caminho de dados de tres barramentos usados em Mic-3. 
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Como esses registradores extras podem ajudar? Agora, leva tres ciclos de clock para usar o caminho de dados: 
um para carregar os latches A e B, um para executar a ULA e deslocador e carregar o latch C, e um para armazenar 
o latch C de volta nos registradores. Certamente, isso e pior do que tlnhamos antes. 

Estamos loucos? ( Dica: Nao!) Inserir os registradores tem dupla finalidade: 

1. Podemos aumentar a velocidade do clock porque o atraso maximo agora e mais curto. 

2. Podemos usar todas as partes do caminho de dados durante cada ciclo. 


Desmembrando o caminho de dados em tres partes, o atraso maximo e reduzido e o resultado e que a 
frequencia do clock pode ser mais alta. Vamos supor que, desmembrando o ciclo do caminho de dados em tres 
intervalos de tempo, o comprimento de cada um seja cerca de 1/3 do original, de modo que podemos triplicar a 
velocidade do clock. (Isso nao e de todo realidade, ja que tambem adicionamos dois registradores ao caminho de 
dados, mas serve como uma primeira aproximagao.) 

Como estamos considerando que todas as leituras e escritas da memoria podem ser satisfeitas na cache de nivel 
1, e que esta e feita do mesmo material que os registradores, continuaremos a supor que uma operagao de memoria 
leva um ciclo. Porem, na pratica, isso pode nao ser facil de conseguir. 

O segundo ponto trata do rendimento, e nao da velocidade, de uma instrugao individual. Na Mic-2, durante 
a primeira e a terceira partes de cada ciclo de clock, a ULA fica ociosa. Desmembrando o caminho de dados em 
tres pedagos, poderemos usar a ULA em cada ciclo, obtendo tres vezes mais trabalho da maquina. 

Agora, vamos ver como o caminho de dados da Mic-3 funciona. Antes de comegar, precisamos de uma 
notagao para lidar com os registradores. A obvia e denominar os registradores A, B e C e trata-los como os outros 
registradores, tendo em mente as restrigoes do caminho de dados. A Ligura 4.32 mostra um exemplo de sequencia 
de codigo, a execugao de SWAP para a Mic-2. 


Figura 4.32 Codigo Mic-2 para swap. 


Rotulo 

Operacoes 

Comentarios j 

swapl 

MAR = SP - 1; rd 

Leia a segunda palavra da pilha; ajuste MAR a SP 

swap2 

MAR = SP 

Prepare para escrever nova segunda palavra 

swap3 

H = MDR; wr 

Salve novo TOS; escreva segunda palavra para pilha 

swap4 

MDR = TOS 

Copie TOS antigo para MDR 

swap5 

MAR = SP - 1; wr 

Escreva TOS antigo para o segundo lugar na pilha 

swap6 

TOS = H; goto (MBR1) 

Atualize TOS 


Agora, vamos reimplementar essa sequencia na Mic-3. Lembre-se de que o caminho de dados agora requer 
tres ciclos para operar: um para carregar A e B, um para efetuar a operagao e carregar C e um para escrever o 
resultado de volta para os registradores. Denominaremos cada um desses pedagos microetapa. 

A implementagao de SWAP para Mic-3 e mostrada na Ligura 4.33. No ciclo 1, comegamos em swapl copian- 
do SP para B. Nao importa o que acontece em A porque, para subtrair 1 de B, ENA e negado (veja a Ligura 4.2). 
Para simplificar, nao mostramos atribuigoes que nao sao usadas. No ciclo 2, efetuamos a subtragao. No ciclo 3, o 
resultado e armazenado em MAR e a operagao de leitura e iniciada no final do ciclo 3, apos MAR ter sido armaze- 
nado. Ja que leituras de memoria agora levam um ciclo, essa nao estara conclulda ate o final do ciclo 4, o que e 
indicado mostrando a atribuigao MDR no ciclo 4. O valor em MDR nao pode ser lido antes do ciclo 5. 
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Figura 4.33 A implementacao de swap na Mic-3. 
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Swap2 

Swap3 

Swap4 

SwapS 

Swap6 

Ciclo 

MAR = SP - 1; rd 

MAR = SP 

H = MDR; wr 

MDR = TOS 

MAR = SP - 1; wr 

TOS = H; goto (MBR1) 
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goto (MBR1) 


Vamos voltar ao ciclo 2. Agora, podemos comegar a desmembrar swap2 em microetapas e inicia-las tambem. 
No ciclo 2, podemos copiar SP para B, entao passa-lo pela ULA no ciclo 3 e por fim armazena-lo em MAR no ciclo 4. 
Ate aqui, tudo bem. Deve estar claro que, se pudermos continuar nesse ritmo, iniciando uma nova microinstrugao 
a cada ciclo, triplicaremos a velocidade da maquina. Esse ganho vem do fa to de que podemos emitir uma nova 
microinstrugao a cada ciclo de clock, que a Mic-3 tern tres vezes mais ciclos de clock por segundo do que a Mic-2. 
Na verdade, construlmos uma CPU com pipeline. 

Infelizmente, encontramos um empecilho no ciclo 3. Gostarlamos de comegar a trabalhar em swap3, mas a 
primeira coisa que ela faz e passar MDR pela ULA, e MDR nao estara disponlvel na memoria ate o inlcio do ciclo 5. 
A situagao em que uma microetapa nao pode iniciar porque esta esperando um resultado que uma microetapa 
anterior ainda nao produziu e denominada dependencia verdadeira ou dependencia RAW. Dependences cos- 
tumam ser denominadas ocorrencias (hazards). RAW quer dizer Read After Write (leitura apos escrita) e indica 
que uma microetapa quer ler um registrador que ainda nao foi escrito. A unica coisa sensata a fazer nesse caso 
e atrasar o inlcio de swap3 ate MDR estar disponlvel no ciclo 5. Esperar por um valor necessario e denominado 
protelagao (stalling). Depois disso, podemos continuar iniciando microinstrugoes a cada ciclo, pois nao ha mais 
dependencias, embora swap6 escape por um triz, uma vez que le H no ciclo apos swap3 escreve-lo. Se swap5 
tivesse tentado ler H, ela (swap6) teria sido protelada por um ciclo. 

Embora o programa Mic-3 leve mais ciclos do que o programa Mic-2, ainda assim e mais rapido. Se denomi- 
narmos o tempo de ciclo da Mic-3 AT ns, entao, ela vai requerer 11 AT ns para executar SWAP. Por comparagao, 
a Mic-2 leva 6 ciclos a 3 AT cada, para um total de 18 AT. O pipeline deixou a maquina mais rapida, ainda que 
tivessemos de protelar uma vez para evitar uma dependencia. 

Pipeline e uma tecnica fundamental em todas as CPUs modernas, portanto, e importante entende-lo bem. 
Na Figura 4.34, vemos o caminho de dados da Figura 4.31 ilustrado graficamente como um pipeline. A primeira 
coluna representa o que esta acontecendo no ciclo 1, a segunda representa o ciclo 2 e assim por diante (consi- 
derando que nao haja protelagao). A regiao sombreada no ciclo 1 para a instrugao 1 indica que a IFU esta ocupada 
buscando a instrugao 1. Uma batida de clock mais tarde, durante o ciclo 2, os registradores requisitados pela instru¬ 
gao 1 estao sendo carregados nos registradores A e B enquanto, ao mesmo tempo, a IFU esta ocupada buscando 
a instrugao 2, de novo mostrada pelos dois retangulos sombreados no ciclo 2. 
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Figura 4.34 llustracao grafica do funcionamento do pipeline. 
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Durante o ciclo 3, a instrugao 1 esta usando a ULA e o deslocador para executar sua operagao e os regis- 
tradores A e B estao sendo carregados para a instrugao 2, e a instrugao 3 esta sendo buscada. Por fim, durante o 
ciclo 4, quatro instrugoes estao sendo processadas ao mesmo tempo. Os resultados da instrugao 1 estao sendo 
armazenados, o trabalho da ULA para a instrugao 2 esta sendo realizado, os registradores A e B para a instrugao 
3 estao sendo carregados e a instrugao 4 esta sendo buscada. 

Se tivessemos mostrado o ciclo 5 e os subsequentes, o padrao teria sido o mesmo do ciclo 4: todas as qua¬ 
tro partes do caminho de dados que podem executar independentemente estariam fazendo isso. Esse projeto 
representa um pipeline de quatro estagios: para busca de instrugao, acesso a operando, operagoes de ULA e escrita 
de volta para os registradores. Isso e semelhante ao pipeline da Figura 2.4(a), exceto pela ausencia do estagio de deco- 
dificagao. A questao importante a entender aqui e que, embora uma unica instrugao leve quatro ciclos de clock para 
executar, a cada ciclo uma nova instrugao e iniciada e uma velha instrugao e conclulda. 
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Outro modo de ver a Figura 4.34 e seguir cada instrugao na pagina em sentido horizontal. Para a instrugao 
1, no ciclo 1 a IFU esta trabalhando nela. No ciclo 2, seus registradores estao sendo colocados nos barramentos 
A e B. No ciclo 3, a ULA e o deslocador estao trabalhando para ela. Por fim, no ciclo 4, seus resultados estao 
sendo armazenados de volta nos registradores. O que se deve notar nesse caso e que ha quatro segoes do hardware 
disponlveis, e durante cada ciclo, uma determinada instrugao usa so um deles, liberando as outras segoes para 
instrugoes diferentes. 

Uma analogia util para nosso projeto com pipeline e uma linha de montagem de uma fabrica de automo- 
veis. Para abstrair os aspectos essenciais desse modelo, imagine que um gongo e tocado a cada minuto, quando 
entao todos os automoveis passam para uma estagao seguinte na linha. Em cada estagao, os trabalhadores que 
ali estao executam alguma operagao no carro que esta a sua frente no momento em questao, como adicionar o 
volante ou instalar os freios. A cada batida do gongo (1 ciclo), um novo carro e introduzido no inlcio da linha 
de montagem e um carro e concluldo. Assim, ainda que leve centenas de ciclos para terminar um carro, a cada 
ciclo um carro inteiro e concluldo. A fabrica pode produzir um carro por minuto, independente do tempo que 
realmente leva para montar um carro. Essa e a forga do pipelining, e ela se aplica igualmente bem a CPUs e 
fabricas de automoveis. 


4.4.5 Pipeline de sete estagios: a Mic-4 

Uma questao a que nao demos o devido destaque e o fato de que toda microinstrugao seleciona sua propria 
sucessora. A maioria delas apenas seleciona a instrugao seguinte na sequencia corrente, mas a ultima, tal como 
swap6, muitas vezes faz um desvio multivias que atrapalha o pipeline , ja que e imposslvel continuar fazendo busca 
antecipada apos o desvio. Precisamos de um modo melhor de lidar com essa questao. 

Nossa ultima microarquitetura e a Mic-4. Suas partes principais estao ilustradas na Figura 4.35, embora mui- 
tos detalhes tenham sido suprimidos em beneflcio da clareza. Como a Mic-3, ela tern uma IFU que busca palavras 
da memoria antecipadamente e man tern os varios MBRs. 

A IFU tambem alimenta o fluxo de bytes que esta entrando para um novo componente, a unidade de decodi¬ 
ficagao. Essa unidade tern uma ROM interna indexada por opcode IJVM. Cada entrada (linha) contem duas partes: 
o comprimento daquela instrugao IJVM e um Indice para outra ROM, a de micro-operagao. O comprimento da 
instrugao IJVM e usado para permitir que a unidade de decodificagao faga a analise sintatica (parse) da sequencia 
de bytes que esta entrando dividindo-a em instrugoes, de modo que ela sempre sabe quais bytes sao opcodes e 
quais sao operandos. Se o comprimento da instrugao em questao for 1 byte (por exemplo, POP), entao, a unidade 
de decodificagao sabe que o proximo byte e um opcode. Contudo, se o comprimento da instrugao em questao 
for 2 bytes, a unidade de decodificagao sabe que o proximo byte e um operando, seguido imediatamente por um 
outro opcode. Quando o prefixo WIDE e visto, o proximo byte e transformado em um opcode largo especial, por 
exemplo, WIDE + ILOAD se torna WIDEJLOAD. 

A unidade de decodificagao despacha o indice na micro-operagao ROM que encontrou em sua tabela para 
o proximo componente, a unidade de enfileiramento. Essa unidade contem alguma logica e mais duas tabelas 
internas, uma em ROM e uma em RAM. A ROM contem o microprograma, sendo que cada instrugao IJVM tern 
certo numero de entradas consecutivas denominadas micro-operagoes. As entradas devem estar em ordem, por- 
tanto, nao sao permitidos truques como o desvio de wide_iload2 para iload2 na Mic-2. Cada sequencia IJVM deve 
ser escrita por extenso, duplicando sequencias em alguns casos. 

As micro-operagoes sao semelhantes as microinstrugoes da Figura 4.5, exceto que os campos NEXT_ 
ADDRESS e JAM estao ausentes e um novo campo codificado e necessario para especificar a entrada do barra- 
mento A. Dois novos bits tambem sao fornecidos: Final e Goto. O bit Final e marcado na ultima micro-operagao 
de cada sequencia de micro-operagao IJVM para sinabza-la. O bit Goto e ajustado para marcar micro-operagoes 
que sao microdesvios condicionais. Elas tern um formato diferente do das micro-operagoes normais, consistindo 
nos bits JAM e um indice para a ROM de micro-operagao. Microinstrugoes que fizeram alguma coisa antes com 
o caminho de dados e tambem realizaram um microdesvio condicional (por exemplo, iflt4) agora tern de ser sub- 
divididas em duas micro-operagoes. 
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Figura 4.35 Principals componentes da Mic-4. 



A unidade de enfileiramento funciona da seguinte maneira. Ela recebe um Indice de ROM de micro-operagao 
da unidade de decodificagao. Depois, examina a micro-operagao e a copia em uma fila interna. Em seguida, tam- 
bem copia a proxima micro-operagao para a fila, bem como a seguinte depois dessa e assim ate encontrar uma 
cujo bit Final e 1. Ela copia essa tambem, e entao para. Considerando que nao tenha encontrado uma micro- 
-operagao com o bit Goto ligado e que ainda tenha muito espago de sobra na fila, a unidade de enfileiramento 
entao devolve um sinal de reconhecimento a de decodificagao. Quando esta ve o reconhecimento, envia o indice 
da proxima instrugao IJVM para a unidade de enfileiramento. 

Desse modo, por fim, a sequencia de instrugoes IJVM na memoria e convertida em uma sequencia de 
micro-operagoes em uma fila. Essas micro-operagoes alimentam os MIRs, que enviam os sinais para controlar o 
caminho de dados. Contudo, ha outro fator que temos de considerar agora: os campos em cada micro-operagao 
nao estao ativos ao mesmo tempo. Os campos A e B estao ativos durante o primeiro ciclo, o campo ULA esta 
ativo durante o segundo ciclo, o campo C esta ativo durante o terceiro ciclo, e quaisquer operagoes de memoria 
ocorrem no quarto ciclo. 

Para fazer com que isso funcione adequadamente, introduzimos quatro MIRs independentes na Figura 4.35. 
No inlcio de cada ciclo de clock (o tempo Aw na Figura 4.3), MIR3 e copiado para MIR4, MIR2 e copiado para 
MIR3, MIR1 e copiado para MIR2, e MIR1 e carregado com uma nova micro-operagao da fila. Entao, cada MIR 
emite seus sinais de controle, mas so alguns deles sao usados. Os campos A e B de MIR1 sao usados para selecio- 
nar os registradores que serao enviados aos barramentos A e B, mas o campo ULA em MIR1 nao e usado e nao e 
conectado a nada mais no caminho de dados. 
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Um ciclo de clock mais tarde, essa micro-operagao passou para MIR2 e os registradores que ela selecionou 
agora estao seguros nos registradores A e B esperando pelas aventuras que hao de vir. Seu campo de ULA agora e 
usado para comandar a ULA. No proximo ciclo, seu campo C escrevera os resultados de volta nos registradores. 
Depois disso, ela passara para MIR4 e iniciara quaisquer operagoes de memoria necessarias usando o MAR agora 
carregado (e MDR, para uma escrita). 

Um ultimo aspecto da Mic-4 precisa de um pouco de discussao agora: microdesvios. Algumas instrugoes 
IJVM, como IFLT, precisam desviar condicionalmente com base, por exemplo, no bit N. Quando ocorre um 
microdesvio, o pipeline nao pode continuar. Para lidar com isso, adicionamos o bit Goto a micro-operagao. 
Quando a unidade de enfileiramento atinge uma micro-operagao que tenha esse bit ajustado enquanto a esta 
copiando para a fila, ela percebe que ha problemas a frente e se abstem de enviar um reconhecimento a unidade 
de decodificagao. O resultado e que a maquina ficara parada nesse ponto ate que o microdesvio tenha sido 
resolvido. 

E conceblvel que algumas instrugoes IJVM que estao alem desse desvio ja tenham sido alimentadas na uni¬ 
dade de decodificagao, mas nao na de enfileiramento, ja que ela nao devolve um sinal de reconhecimento (isto 
e, continuagao) quando atinge uma micro-operagao na qual o bit Goto esta ligado. Sao necessarios hardware e 
mecanismos especiais para acabar com a confusao e voltar a trilha certa, mas eles estao alem do escopo deste 
livro. Quando Edsger Dijkstra escreveu seu famoso artigo “GOTO Statement Considered Harmful” [declaragao 
GOTO considerada perigosa (Dijkstra, 1968a)], ele nao tinha ideia do quanto estava certo. 

Percorremos um longo caminho desde a Mic-1. Ela era uma pega de hardware muito simples, com quase 
todo o controle em software. A Mic-4 tern um projeto de alto pipelining , com sete estagios e hardware muito 
mais complexo. O pipeline e mostrado em esquema na Figura 4.36. Os numeros dentro dos clrculos referem- 
-se diretamente aos componentes na Figura 4.35. A Mic-4 faz busca antecipada automatica de uma sequencia 
de bytes da memoria, decodifica-a para instrugoes IJVM, converte-a para uma sequencia de micro-operagoes 
usando uma ROM e a enfileira para usar quando necessario. Os primeiros tres estagios do pipeline podem ser 
vinculados ao clock do caminho de dados se desejado, mas nem sempre havera trabalho a fazer. Por exemplo, 
a IFU certamente nao pode alimentar um novo opcode IJVM a unidade de decodificagao em cada ciclo de clock 
porque instrugoes IJVM levam varios ciclos para executar e a fila logo transbordaria. 


Figura 4.36 Pipeline da Mic-4. 
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Em cada ciclo de clock , os MIRs sao deslocados para frente e a micro-operagao que esta no final da fila e 
copiada para o MIR1 para iniciar sua execugao. Os sinais de controle dos quatro MIRs entao se espalham pelo 
caminho de dados, fazendo com que ocorram agoes. Cada MIR controla uma parte diferente do caminho de dados 
e, portanto, microetapas diferentes. 

Neste projeto, temos uma CPU de alto pipelining que permite que as etapas individuals sejam muito curtas 
e, por isso, que a frequencia de clock seja alta. Muitas CPUs sao projetadas essencialmente dessa maneira, em 
especial, as que tern de executar um conjunto de instrugoes mais antigo (CISC). Por exemplo, o conceito da 
implementagao do Core i7 e semelhante ao da Mic-4 em alguns aspectos, como veremos mais adiante neste 
capltulo. 
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4.5 Melhoria de desempenho 

Todos os fabricantes de computadores querem que seus sistemas funcionem com a maior rapidez posslvel. 
Nesta segao, veremos algumas tecnicas avangadas que estao sendo investigadas para melhorar o desempenho do 
sistema (em especial, CPU e memoria). Pela natureza de alta competitividade da industria de computadores, a 
defasagem entre novas ideias que podem tornar um computador mais rapido e sua incorporagao a produtos e 
surpreendentemente curta. Por conseguinte, a maioria das ideias que discutiremos j a esta em uso em uma grande 
maioria de produtos. 

As ideias que discutiremos podem ser classificadas, de modo geral, em duas grandes categorias. Melhorias de 
implementagao e melhorias de arquitetura. Melhorias de implementagao sao modos de construir uma nova CPU 
ou memoria para fazer o sistema funcionar mais rapido sem mudar a arquitetura. Modificar a implementagao sem 
alterar a arquitetura significa que programas antigos serao executados na nova maquina, um importante argu- 
mento de venda. Um modo de melhorar a implementagao e usar um clock mais rapido, mas esse nao e o unico. 
Os ganhos de desempenho obtidos na famllia 80386 a 80486, Pentium e projetos mais recentes, como o Core i7, 
se devem a implementagoes melhores, porque, em essentia, a arquitetura permaneceu a mesma em todos eles. 

Alguns tipos de melhorias so podem ser feitos com a alteragao da arquitetura. As vezes, essas alteragoes sao 
incrementais, como adicionar novas instrugoes ou registradores, de modo que programas antigos continuarao a 
ser executados nos novos modelos. Nesse caso, para conseguir um desempenho completo, o software tern de ser 
alterado, ou ao menos recompilado com um novo compilador que aproveita as novas caracterlsticas. 

Contudo, passadas algumas decadas, os projetistas percebem que a antiga arquitetura durou mais do que sua 
utilidade e que o unico modo de progredir e comegar tudo de novo. A revolugao RISC na decada de 1980 foi uma 
dessas inovagoes; outra esta no ar agora. Vamos examinar um exemplo (Intel IA-64) no Capltulo 5. 

No restante desta segao, estudaremos quatro tecnicas diferentes para melhorar o desempenho da CPU. 
Comegaremos com tres melhorias de implementagao ja estabelecidas e depois passaremos para uma que precisa 
de um pouco de suporte da arquitetura para funcionar melhor. Essas tecnicas sao memoria cache , previsao de 
desvio, execugao fora da ordem com renomeagao de registrador e execugao especulativa. 

4.5.1 Memoria cache 

Um dos aspectos mais desafiadores do projeto de um computador em toda a historia tern sido oferecer um 
sistema de memoria capaz de fornecer operandos ao processador a velocidade em que ele pode processa-los. A 
recente alta taxa de crescimento na velocidade do processador nao foi acompanhada de um aumento corres- 
pondente na velocidade das memorias. Se comparadas com as CPUs, as memorias estao ficando mais lentas ha 
decadas. Dada a enorme importancia da memoria primaria, essa situagao limitou muito o desenvolvimento de 
sistemas de alto desempenho e estimulou a pesquisa a encontrar maneiras de contornar o problema da velocida¬ 
de das memorias que sao muito menores do que as velocidades das CPUs e, em termos relativos, estao ficando 
piores a cada ano. 

Processadores modernos exigem muito de um sistema de memoria, tanto em termos de latencia (o atraso na 
entrega de um operando) quanto de largura de banda (a quantidade de dados fornecida por unidade de tempo). 
Infelizmente, ha um grande antagonismo entre esses dois aspectos. Muitas tecnicas para aumentar a largura de 
banda tambem aumentam a latencia. Por exemplo, as tecnicas de pipelining usadas na Mic-3 podem ser aplica- 
das a um sistema de memoria que tenha varias memorias sobrepostas e elas serao manipuladas com eficiencia. 
Lamentavelmente, assim como na Mic-3, isso resulta em maior latencia para operagoes individual de memoria. 
A medida que aumentam as velocidades de clock do processador, fica cada vez mais diflcil prover um sistema de 
memoria capaz de fornecer operandos em um ou dois ciclos de clock. 

Um modo de atacar esse problema e providenciar caches. Como vimos na Segao 2.2.5, uma cache guarda as 
palavras de memoria usadas mais recentemente em uma pequena memoria rapida, o que acelera o acesso a elas. 
Se uma porcentagem grande o suficiente das palavras de memoria estiver na cache , a latencia efetiva da memoria 
pode ter enorme redugao. 
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Uma das tecnicas mais efetivas para melhorar a largura de banda e tambem a latencia e a utilizagao de varias 
caches. Uma tecnica basica que funciona com grande eficacia e introduzir uma cache separada para instrugoes e 
dados. E posslvel obter muitos beneflcios com caches separadas para instrugoes e dados, algo que muitas vezes 
denominamos cache dividida. Primeiro, as operagoes de memoria podem ser iniciadas de modo independente 
em cada cache , o que efetivamente dobra a largura de banda do sistema de memoria. E essa a razao por que faz 
sentido fornecer duas portas de memoria separadas, como fizemos na Mic-1: cada porta tern sua propria cache. 
Note que cada uma tern acesso independente a memoria principal. 

Hoje, muitos sistemas de memoria sao mais complicados do que isso, e uma cache adicional, denominada 
cache de nlvel 2, pode residir entre as caches de instrugao e dados e a memoria principal. Na verdade, pode 
haver tres ou mais nlveis de cache a medida que se exigem sistemas de memoria mais sofisticados. Na Figura 
4.37, vemos um sistema com tres nlveis. O proprio chip da CPU contem uma pequena cache de instrugao e uma 
pequena cache de dados, em geral de 16 KB a 64 KB. Entao, ha a cache de nlvel 2, que nao esta no chip da CPU, 
mas pode ser inclulda no pacote da CPU proxima ao chip da CPU e conectada a ela por um caminho de alta velo- 
cidade. Em geral, ela e unificada, contendo um misto de dados e instrugoes. Um tamanho tlpico para a cache L2 
e de 512 KB a 1 MB. A cache de terceiro nlvel esta na placa do processador e consiste em alguns poucos megabytes 
de SRAM, que e muito mais rapida do que a memoria principal DRAM. As caches sao em geral inclusivas, sendo 
que o conteudo total da de nlvel 1 esta na de nlvel 2 e todo o conteudo da cache de nlvel 2 esta na de nlvel 3. 


Figura 4.37 


Sistema com tres nfveis de cache. 


Pacote 
da CPU 


Placa do _ 
processador 


Chip da CPU 


[qU Egl 

\ / ' 


Cache 

L2 

unificada 


Cache 
L3 unificada 


Controlador 


Controlador 


Controlador 

de teclado 


grafico 


de disco 


Memoria 

principal 

(DRAM) 


Caches LI divididas de instrugao e dados 


Cache de nlvel de placa (SRAM) 


Caches dependem de dois tipos de enderego de localidade para cumprir seu objetivo. Localidade espacial 
e a observagao de que localizagoes de memoria com enderegos numericamente similares a uma localizagao de 
memoria cujo acesso foi recente provavelmente serao acessadas no futuro proximo. Caches exploram essa pro- 
priedade trazendo mais dados do que os requisitados, na expectativa de poder antecipar requisigoes futuras. 
Localidade temporal ocorre quando localizagoes de memoria recentemente acessadas sao acessadas outra vez. 
Isso pode ocorrer, por exemplo, com localizagoes de memorias proximas ao topo da pilha, ou com instrugoes 
dentro de um lago. A localidade temporal e explorada em projetos de cache , principalmente pela escolha do que 
descartar quando ocorre uma ausencia na cache. Muitos algoritmos de substituigao de cache exploram a locali- 
dade temporal descartando as entradas que nao tiveram acesso recente. 

Todas as caches usam o modelo a seguir. A memoria principal e dividida em blocos de tamanho fixo, designa- 
dos linhas de cache. Uma linha tlpica consiste em 4 a 64 bytes consecutivos. As linhas sao numeradas em sequen- 
cia, comegando em 0; portanto, se tivermos uma linha de 32 bytes de tamanho, a linha 0 vai do byte 0 ao byte 
31, a linha 1 do byte 32 ao 63, e assim por diante. Em qualquer instante, algumas linhas estao na cache. Quando 
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a memoria e referenciada, o circuito de controle da cache verifica se a palavra referenciada esta nela naquele 
instante. Caso positivo, o valor que ali esta pode ser usado, evitando uma viagem ate a memoria principal. Se a 
palavra nao estiver la, alguma linha de entrada e removida da cache e a linha necessaria e buscada na memoria 
ou na cache de nivel mais baixo para substitul-la. Existem muitas variagoes desse esquema, mas em todas elas 
a ideia e manter as linhas mais utilizadas na cache o quanto posslvel, para maximizar o numero de references a 
memoria satisfeitas pela cache. 

• Caches de mapeamento direto 

A cache mais simples e conhecida como cache de mapeamento direto. Um exemplo de cache de mapeamento 
direto de um so nivel e mostrado na Figura 4.38(a). Esse exemplo contem 2.048 entradas. Cada entrada (linha) 
pode conter exatamente uma linha de cache da memoria principal. Se a linha tiver 32 bytes de tamanho, para esse 
exemplo, a cache pode conter 2.048 entradas de 32 bytes, ou 64 KB no total. Cada entrada de cache consiste em 
tres partes: 

1. O bit Valid indica se ha ou nao quaisquer dados validos nessa entrada. Quando o sistema e iniciado, 
todas as entradas sao marcadas como invalidas. 

2. O campo Tag consiste em um unico valor de 16 bits que identifica a linha de memoria correspondente 
da qual vieram os dados. 

3. O campo Data contem uma copia dos dados na memoria. Ele contem uma linha de cache de 32 bytes. 


Figura 4.38 (a) Cache de mapeamento direto. (b) Endereco virtual de 32 bits. 
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Em uma cache de mapeamento direto, uma determinada palavra de memoria pode ser armazenada em exa¬ 
tamente um lugar dentro da cache. Dado um enderego de memoria, ha somente um lugar onde procurar por ele. 
Se nao estiver nesse lugar, entao ele nao esta na cache. Para armazenar e recuperar dados da cache , o enderego e 
desmembrado em quatro componentes, como ilustra a Figura 4.38(b): 
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1. O campo TAG corresponde aos bits Tag armazenados em uma entrada de cache. 

2. O campo LINE indica qual entrada de cache contem os dados correspondentes, se eles estiverem 
presentes. 

3. O campo WORD informa qual palavra dentro de uma linha e referenciada. 

4. O campo BYTE em geral nao e usado, mas se for requisitado apenas um byte, ele informa qual byte 
dentro da palavra e necessario. Para uma cache que fornece apenas palavras de 32 bits, esse campo sera 
sempre 0. 


Quando a CPU produz um enderego de memoria, o hardware extrai os 11 bits LINE do enderego e os utiliza 
para indexa-lo na cache para achar uma das 2.048 entradas. Se essa entrada for valida, o campo TAG do enderego 
de memoria e o campo Tag na entrada da cache sao comparados. Sendo compatlveis, a entrada de cache contem 
a palavra que esta sendo requisitada, uma situagao denominada presenga na cache. Se ocorrer uma presenga na 
cache , uma palavra que esta sendo lida pode ser pega, eliminando a necessidade de ir ate a memoria. Somente a 
palavra necessaria e extralda da entrada da cache. O resto da entrada nao e usado. Se a entrada for invalida ou os 
tags nao forem compatlveis, a entrada necessaria nao esta presente, uma situagao denominada ausencia da cache. 
Nesse caso, a linha de cache de 32 bytes e buscada na memoria e armazenada na linha da cache , substituindo o que 
la estava. Contudo, se a linha de cache existente sofreu modificagao desde que foi carregada, ela deve ser escrita 
de volta na memoria principal antes de ser sobrescrita. 

A despeito da complexidade da decisao, o acesso a palavra necessaria pode ser extraordinariamente rapido. 
Assim que o enderego for conhecido, a exata localizagao da palavra e conhecida, se ela estiver presente na cache. 
Isso significa que e posslvel ler a palavra da cache e entrega-la ao processador ao mesmo tempo em que esta sendo 
determinado se essa e a palavra correta (por comparagao de tags). Portanto, na verdade o processador recebe uma 
palavra da cache simultaneamente ou talvez ate antes de saber se essa e a palavra requisitada. 

Esse esquema de mapeamento poe linhas de memoria consecutivas em linhas de cache consecutivas. De 
fa to, ate 64 KB de dados contlguos podem ser armazenados na cache. Contudo, quando a diferenga entre o 
enderego de duas linhas for exatamente 64 KB (65.536 bytes) ou qualquer multiplo inteiro desse numero, elas 
nao podem ser armazenadas na cache ao mesmo tempo (porque tern o mesmo valor de LINE). Por exemplo, se 
um programa acessar dados na localizagao X e em seguida executar uma instrugao que precisa dos dados na 
localizagao X + 65.536 (ou em qualquer outra localizagao dentro da mesma linha), a segunda instrugao forgara 
a linha de cache a ser recarregada, sobrescrevendo o que la estava. Se isso acontecer com certa frequencia, pode 
resultar em mau desempenho. Na verdade, o pior comportamento posslvel de uma cache e ainda pior do que 
se nao houvesse nenhuma, ja que cada operagao de memoria envolve ler uma linha de cache inteira em vez de 
apenas uma palavra. 

Caches de mapeamento direto sao as mais comuns e funcionam com bastante eficacia, porque com elas e 
posslvel fazer colisoes como a descrita ocorrerem apenas raramente, ou nunca ocorrerem. Por exemplo, um com- 
pilador muito esperto pode levar em conta as colisoes de cache quando colocar instrugoes e dados na memoria. 
Note que o caso particular descrito nao ocorreria em um sistema com caches de instrugoes e dados separados, 
porque as requisigoes confidantes seriam atendidas por caches diferentes. Assim, vemos um segundo beneflcio de 
ter duas caches em vez de uma: mais flexibilidade para lidar com padroes de memoria confidantes. 

• Caches associativas de conjunto 

Como ja dissemos, muitas linhas diferentes competem na memoria pelas mesmas posigoes na cache (cache 
slots). Se um programa que utiliza a cache da Figura 4.38(a) usar muito as palavras nos enderegos 0 e 65.536, 
havera conflitos constantes porque cada referenda potencialmente expulsaria a outra. Uma solugao para esse 
problema e permitir duas ou mais linhas em cada entrada de cache. Uma cache com n entradas posslveis para 
cada enderego e denominada uma cache associativa de conjunto de n vias. Uma cache associativa de conjunto de 
quatro vias e ilustrada na Figura 4.39. 
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Figura 4.39 Cache associativa de conjunto de quatro vias. 
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Uma cache associativa de conjunto e inerentemente mais complicada do que uma de mapeamento direto 
porque, embora a linha de cache correta a examinar possa ser calculada do enderego de memoria que esta sendo 
referenciado, um conjunto de n linhas de cache deve ser verificado para ver se a palavra necessaria esta presente. 
Ainda assim, a experiencia mostra que caches de duas vias e de quatro vias funcionam bem o suficiente para que 
esses circuitos extras valham a pena. 

A utilizagao de caches associativas de conjunto oferece uma opgao ao projetista. Quando uma nova linha 
deve ser trazida para dentro da cache , qual dos itens nela presentes deve ser descartado? E claro que a decisao 
ideal requer uma olhadela no futuro, mas um algoritmo muito bom para a maioria das finalidades e o LRU (Least 
Recently Used - usado menos recentemente) . Esse algoritmo mantem uma ordenagao de cada conjunto de loca- 
lizagoes que poderia ser acessado de uma determinada localizagao de memoria. Sempre que qualquer das linhas 
presentes e acessada, ele atualiza a lista, marcando aquela entrada como a mais recentemente acessada. Quando 
chega a hora de substituir uma entrada, a que esta no final da lista (aquela acessada menos recentemente) e a 
descartada. 

Levada ao extremo, uma cache de 2.048 vias que contem 2.048 linhas de entrada tambem e posslvel. Nesse 
caso, todos os enderegos de memoria mapeiam para um unico conjunto, portanto, a consulta requer comparar o 
enderego contra todos os 2.048 tags na cache. Note que agora cada entrada deve ter logica de compatibilizagao 
de tag. Visto que o campo LINE tern comprimento 0, o campo TAG e o enderego inteiro, exceto para os campos 
WORD e BYTE. Alem do mais, quando uma linha de cache e substitulda, todas as 2.048 localizagoes sao posslveis 
candidatas a substituigao. Manter uma lista ordenada de 2.048 linhas requer muita contabilidade, o que torna 
a substituigao da LRU inviavel. (Lembre-se de que essa lista tern de ser atualizada a cada operagao de memoria, e 
nao apenas quando ocorre uma ausencia na cache.) O surpreendente e que caches de alto grau de associatividade nao 
melhoram muito o desempenho em relagao as de baixo grau sob a maioria das circunstancias e, em alguns casos, 
ate funcionam pior. Por essas razoes, a associatividade de conjunto alem de quatro vias e relativamente incomum. 

Por fim, escritas propoem um problema especial para as caches. Quando um processador escreve uma palavra 
e a palavra esta na cache , e obvio que ele tern de atualizar a palavra ou descartar a entrada da cache. Praticamente 
todos os modelos atualizam a cache. Mas, e quanto a atualizar a copia na memoria principal? Essa operagao pode 
ser adiada ate mais tarde, quando a linha de cache estiver pronta para ser substitulda pelo algoritmo LRU. Essa 
escolha e diflcil, e nenhuma das opgoes e claramente preferlvel. A atualizagao imediata da entrada na memoria 
principal e denominada escrita direta (write through). Essa abordagem geralmente e mais simples de realizar e 
mais confiavel, uma vez que a memoria esta sempre atualizada - e util, por exemplo, se ocorrer um erro e for 
necessario recuperar o estado da memoria. Infelizmente, tambem requer mais trafego de escrita para a memoria, 
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portanto, execugoes mais sofisticadas tendem a empregar a alternativa, conhecida como escrita retardada (write 
deferred ) ou escrita retroativa (write back). 

Ha um problema relacionado com as escritas que e preciso atacar: e se ocorrer uma escrita para uma loca- 
lizagao que nao esta na cache naquele momento? Os dados devem ser trazidos para dentro da cache ou apenas 
escritos na memoria? Mais uma vez, nenhuma das respostas e sempre a melhor. A maioria dos projetos que retar- 
dam escritas para a memoria tende a trazer os dados para dentro quando ha uma ausencia de escrita, uma tecnica 
conhecida como alocagao de escrita. Por outro lado, a maioria dos projetos que empregam escrita direta tende a 
nao alocar uma linha em uma escrita porque essa opgao complica um projeto que, quanto ao mais, seria simples. 
Alocagao de escrita e melhor apenas se houver escritas repetidas para a mesma palavra ou palavras diferentes 
dentro de uma linha de cache. 

O desempenho da cache e crltico para o desempenho do sistema porque a defasagem entre a velocidade da 
CPU e a da memoria e muito grande. Por conseguinte, a pesquisa de melhores estrategias de caching ainda e um 
topico muito discutido (Sanchez e Kozyrakis, 2011; e Gaur et al., 2011). 

4.5.2 Previsao de desvio 

Computadores modernos tern alto grau de pipelining. O pipeline da Figura 4.36 tern sete estagios; computa¬ 
dores de ultima geragao as vezes tern dez estagios ou ate mais. O pipeline funciona melhor com codigo linear, de 
modo que a unidade de busca pode apenas ler palavras consecutivas da memoria e as enviar para a unidade de 
decodificagao antes de haver necessidade delas. 

O unico problema com esse maravilhoso modelo e que ele nao e nem um pouco realista. Programas nao sao 
sequencias de codigo linear - estao repletos de instrugoes de desvio. Considere as declaragoes simples da Figura 
4.40(a). Uma variavel, i, e comparada com 0 (provavelmente o teste mais comum na pratica). Dependendo do 
resultado, um de dois valores posslveis e atribuldo a outra variavel, k. 


Figura 4.40 (a) Fragmento de programa. (b) Sua traducao para uma linguagem de montagem generica. 


if (i == 0) 


CMP i,0 

compare i com 0 

k = 1; 


BNE Else 

Desvie se for diferente 

else 

Then: 

MOV k, 1 

Mova 1 para k 

k = 2; 


BR Next 

Desvio incondicional 


Else: 

MOV k,2 

Mova 2 para k 


Next: 



(a) 


(b) 



Uma tradugao posslvel para a linguagem de montagem e mostrada na Figura 4.40(b). Estudaremos a lingua- 
gem de montagem mais adiante neste livro e os detalhes nao sao importantes agora, mas, dependendo da maquina 
e do compilador, e provavel que haja um codigo mais ou menos como o da Figura 4.40(b). A primeira instrugao 
compara i com 0. A segunda desvia para o rotulo Else (o inlcio de uma clausula else) se i nao for 0. A terceira 
instrugao atribui 1 a k. A quarta desvia para saltar a proxima declaragao. O compilador convenientemente colocou 
ali um rotulo, Next , portanto, ha um lugar para o qual desvia. A quinta instrugao atribui 2 a k. 

Nesse caso, devemos observar que duas das cinco instrugoes sao desvios. Alem do mais, uma delas, BNE, e 
um desvio condicional (tornado se, e somente se, alguma condigao for cumprida, nesse caso, que os dois operan- 
dos da CMP anterior nao sejam iguais). A sequencia de codigo linear mais longa no caso sao duas instrugoes. Por 
conseguinte, buscar instrugoes a alta velocidade para alimentar o pipeline e muito diflcil. 

A primeira vista, pode parecer que desvios incondicionais, como a instrugao BR Next na Figura 4.40(b), nao 
sao um problema. Afinal, nao ha nenhuma ambiguidade sobre aonde ir. Por que a unidade de busca nao pode 
apenas continuar a ler as instrugoes a partir do enderego visado (o lugar para onde o desvio levara)? 
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O problema esta na natureza do pipelining. Na Figura 4.36, por exemplo, vemos que a decodificagao da ins¬ 
trugao ocorre no segundo estagio. Assim, a unidade de busca tem de decidir de onde buscar em seguida antes de 
saber que tipo de instrugao acabou de obter. Somente um ciclo mais tarde ela pode saber que acabou de pegar um 
desvio incondicional e, a essa altura, ja comegou a buscar a instrugao que vem apos esse desvio. Por conseguinte, 
um numero substancial de maquinas com pipeline (como a UltraSPARCIII) tem a seguinte propriedade: a instru¬ 
gao seguinte a um desvio incondicional e executada, ainda que logicamente nao devesse ser. A posigao apos um 
desvio e denominada posigao de retardo ( delay slot). O Core i7 (e a maquina usada na Figura 4.40(b)) nao tem 
essa propriedade, mas a complexidade interna para contornar o problema costuma ser enorme. Um compilador 
otimizador tentara encontrar alguma instrugao util para colocar na posigao de retardo, mas com frequencia nao 
ha nada disponlvel, entao, ele e forgado a inserir ali uma instrugao NOP. Assim, o programa fica correto, mas 
tambem maior e mais lento. 

Por mais que desvios incondicionais sejam irritantes, os desvios condicionais sao piores. Alem de tambem 
terem posigoes de retardo, agora a unidade de busca nao sabe de onde ler ate muito mais adiante no pipeline. As 
primeiras maquinas com pipeline apenas protelavam ate saberem se o desvio seria tornado ou nao. Uma protelagao 
de tres ou quatro ciclos em cada desvio condicional, em especial se 20% das instrugoes forem desvios condicio¬ 
nais, arrasa o desempenho. 

Por conseguinte, o que a maioria das maquinas faz quando chega a um desvio condicional e prever se ele vai 
ser tornado ou nao. Seria maravilhoso se pudessemos apenas ligar uma bola de cristal em um encaixe PCI livre 
para ajudar na previsao, mas ate agora essa abordagem nao deu frutos. 

Na falta de tal periferico, foram arquitetadas varias maneiras de fazer a previsao. Um modo muito simples 
e o seguinte: considere que todos os desvios condicionais para tras serao tornados e todos os desvios para frente 
nao serao tornados. O racioclnio que fundamenta a primeira parte e que os desvios para tras costumam estar 
localizados no final de um lago. A maioria dos lagos e executada varias vezes, portanto, prever que um desvio de 
volta ao inlcio do lago sera tornado, em geral e um bom palpite. 

A segunda parte e mais tumultuada. Alguns desvios para frente ocorrem quando sao detectadas condigoes 
de erro em software (por exemplo, um arquivo nao pode ser aberto). Erros sao raros, portanto, quase todos os 
desvios associados a eles nao sao tornados. E claro que ha uma grande quantidade de desvios para frente que nao 
estao relacionados com o tratamento de erros, portanto, a taxa de sucesso nao e tao boa quanto a dos desvios para 
tras. Embora nao seja fantastica, essa regra e, no mlnimo, melhor do que nada. 

Se um desvio for previsto corretamente, nao ha nada de especial a fazer. A execugao apenas continua no 
enderego de destino. O problema comega quando o desvio e previsto de forma errada. Imaginar para onde ir e 
ir para la nao e diflcil. A parte diflcil e desfazer as instrugoes que ja foram executadas e nao deveriam ter sido. 

Ha dois modos de resolver isso. O primeiro e permitir que as instrugoes buscadas apos um desvio con¬ 
dicional previsto executem ate que ten tem mudar o estado da maquina (por exemplo, armazenando em um 
registrador). Em vez de sobrescrever o registrador, o valor calculado e colocado em um registrador transitorio 
(secreto) e somente copiado para o registrador real apos saber que a previsao estava correta. O segundo e registrar 
o valor de qualquer registrador que esteja pronto para ser sobrescrito - por exemplo, em um registrador transi¬ 
torio secreto -, de modo que a maquina possa ser levada de volta ao estado em que estava no momento em que 
tomou o desvio mal previsto. Ambas as solugoes sao complexas e requerem contabilidade de nivel industrial para 
conseguir efetua-las direito. Alem do mais, se um segundo desvio condicional for atingido antes de se saber se a 
previsao do primeiro estava correta, as coisas podem ficar complicadas de fa to. 

• Previsao dinamica de desvios 

Claro que previsoes exatas tem grande valor, uma vez que permitem que a CPU funcione a toda velocidade. 
Como consequencia, grande parte da pesquisa em curso tem como objetivo melhorar algoritmos de previsao de 
desvio (Chen et ah, 2003; Falcon et al., 2004; Jimenez, 2003; e Parikh et al., 2004). Uma abordagem e a CPU man- 
ter uma tabela historica (em hardware especial) na qual registra desvios condicionais a medida que eles ocorrem, 
de modo que eles possam ser consultados quando ocorrerem novamente. A versao mais simples desse esquema 
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e mostrada na Figura 4.41(a). Nesse exemplo, a tabela historica contem uma linha para cada instrugao de desvio 
condicional. A linha contem o enderego da instrugao de desvio junto com um bit que informa se ele foi tornado da 
ultima vez que foi executado. Usando esse esquema, a previsao e apenas que o desvio ira para o mesmo lugar 
da ultima vez. Se a previsao estiver errada, o bit na tabela de historico e alterado. 


Figura 4.41 


(a) Historico de desvio de 1 bit. (b) Historico de desvio de 2 bits, (c) Mapeamento entre endereco de instrucao de desvio e 
endereco de destino. 


Desvio/ 


Bits de 



(a) 


(b) 


(c) 


Ha diversos modos de organizar a tabela de historico. Na verdade, sao exatamente os mesmos modos usa- 
dos para organizar uma cache. Considere uma maquina com instrugoes de 32 bits que sao alinhadas por palavra 
de modo que os 2 bits de ordem baixa de cada enderego de memoria sejam 00. Com uma tabela de historico de 
mapeamento direto que contem 2 n entradas, os n + 2 bits de ordem baixa de uma instrugao de desvio podem ser 
extraldos e deslocados 2 bits para a direita. Esse numero de n bits pode ser usado como um Indice para a tabela 
de historico, onde e feita uma verificagao para ver se o enderego ah armazenado e compatlvel com o enderego do 
desvio. Como acontece com uma cache , nao ha necessidade de armazenar os n + 2 bits de ordem baixa, portanto, 
eles podem ser omitidos (isto e, somente os bits mais altos de enderego - o tag - sao armazenados). Se houver 
compatibilidade, ou seja, uma presenga na tabela, o bit de previsao e usado para prever o desvio. Se o tag errado 
estiver presente ou a entrada for invalida, ocorre uma ausencia na tabela (ou nao ha compatibilidade), exatamente 
como na cache. Nesse caso, pode ser usada a regra do desvio para frente e para tras. 

Se a tabela de historico de desvio tiver, por exemplo, 4.096 entradas, entao os desvios nos enderegos 0, 
16384, 32768, ... serao confidantes, um problema semelhante ao que encontramos na cache. A mesma solugao 
e posslvel: uma entrada associativa de duas vias, quatro vias ou n vias. Assim como para a cache , o caso limite e 
uma unica entrada associativa de n vias, que requer associatividade total de consulta. 

Dada uma tabela de tamanho suficiente e suficiente associatividade, esse esquema funciona bem na maioria 
das situagoes. Contudo, sempre ocorre um problema sistematico. Quando por fim se atingir a salda de um lago, 
e feita uma previsao errada para o desvio e, pior ainda, a ma previsao mudara o bit na tabela de historico para 
indicar uma futura previsao de “nenhum desvio”. Na proxima vez que se entrar no lago, havera uma previsao 
errada de desvio ao final da primeira iteragao. Se o lago estiver dentro de um lago externo, ou dentro de um pro- 
cedimento que e chamado muitas vezes, esse erro pode acontecer com frequencia. 

Para eliminar essa ma previsao, podemos dar uma segunda chance a entrada da tabela. Por tal metodo, a 
previsao so e alterada apos duas previsoes incorretas. Essa abordagem requer dois bits de previsao na tabela de 
historico, um para o que o desvio “deve” fazer e um para o que fez da ultima vez, como mostra a Figura 4.41(b). 

Um modo ligeiramente diferente de considerar esse algoritmo e ve-lo como uma maquina de estado finito de 
quatro estados, como ilustra a Figura 4.42. Apos uma serie de previsoes sucessivas certas de “nenhum desvio”, a 
FSM estara no estado 00 e prevera “nenhum desvio” na proxima vez. Se essa previsao estiver errada, ela passara 
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para o estado 01, mas prevera “nenhum desvio” tambem na proxima vez. So se essa previsao estiver errada, ela pas- 
sara agora para o estado lie prevera desvios o tempo todo. Na verdade, o bit da extrema esquerda do estado e a 
previsao e o da extrema direita e o que o desvio fez da ultima vez. Embora esse projeto use apenas 2 bits para o 
historico, um projeto que monitora 4 ou 8 bits de historico tambem e posslvel. 


Figura 4.42 Maquina de estado finito de 2 bits para previsao de desvio. 



Essa nao e nossa primeira FSM. A Figura 4.28 tambem era uma FSM. Na realidade, todos os nossos micro- 
programas podem ser considerados FSMs, uma vez que cada linha representa um estado especlfico no qual a 
maquina pode estar, com transigoes bem definidas para um conjunto finito de outros estados. FSMs sao muito 
usadas em todos os aspectos do projeto de hardware. 

Ate aqui, consideramos que o alvo de cada desvio condicional era conhecido, ou como um enderego explicito 
para o qual desviar (contido dentro da propria instrugao), ou como um deslocamento relativo com referenda a ins- 
trugao corrente (isto e, um numero com sinal para adicionar ao contador de programa). Muitas vezes, essa suposigao 
e valida, mas algumas instrugoes de desvio calculam o enderego de destino efetuando a aritmetica nos registradores 
e entao se dirigem para aquele enderego. Mesmo que a FSM da Figura 4.42 preveja com exatidao que o desvio sera 
tornado, essa previsao de nada serve se o enderego de destino for desconhecido. Um modo de lidar com essa situa- 
gao e armazenar na tabela de historico o enderego ao qual o desvio se dirigiu da ultima vez, como mostra a Figura 
4.41(c). Desse modo, se a tabela informar que da ultima vez que o desvio no enderego 516 foi tornado ele foi para 
o enderego 4.000, se a previsao agora for “desvio”, a suposigao de trabalho sera um desvio para 4.000 novamente. 

Uma abordagem diferente para a previsao de desvio e monitorar se os ultimos k desvios condicionais encon- 
trados foram tornados, pouco importando quais instrugoes eram. Esse numero de k bits, mantido no registrador 
de deslocamento da tabela de historico, e entao comparado em paralelo com todas as entradas de uma tabela de 
historico que tenham uma chave de k bits e, se ocorrer um sucesso, a previsao encontrada sera usada. Por mais 
surpreendente que seja, essa tecnica funciona bastante bem. 

• Previsao estatica de desvio 

Todas as tecnicas de previsao de desvio discutidas ate agora sao dinamicas, isto e, sao realizadas em tempo de 
execugao, durante a execugao do programa. Elas tambem se adaptam ao comportamento corrente do programa, 
o que e bom. A desvantagem e que elas requerem hardware especializado e caro e muita complexidade no chip. 

Um modo diferente de trabalhar e fazer com que o compilador ajude. Quando o compilador vir uma decla- 
ragao como 

for (i = 0; i < 1000000; i++) { ... } 
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ele sabe muito bem que o desvio no final do lago sera tornado quase toda vez. Se ao menos houvesse um meio 
de ele informar ao hardware, muito esforgo seria poupado. 

Embora seja uma alteragao de arquitetura, e nao apenas uma questao de execugao, algumas maquinas, como 
a UltraSPARC III, tem um segundo conjunto de instrugoes de desvio condicional, alem das normais, que sao 
necessarias por compatibilidade. As novas contem um bit no qual o compilador pode especificar que ele acha 
que o desvio sera tornado (ou nao tornado). Quando uma dessas e encontrada, a unidade de busca apenas faz 
o que lhe disseram para fazer. Alem do mais, nao ha necessidade de desperdigar precioso espago da tabela de 
historico de desvios com essas instrugoes, reduzindo assim o conflito que ali acontece. 

Por fim, nossa ultima tecnica de previsao de desvio e baseada na determinagao de perfil (Fisher e 
Freudenberger, 1992). Essa tambem e uma tecnica estatica, mas em vez de fazer o compilador tentar adivinhar 
quais desvios serao tornados e quais nao serao, o programa e executado (normalmente em um simulador) e o 
comportamento do desvio e capturado. Essa informagao e alimentada no compilador, que entao usa as instrugoes 
de desvio condicional especial para informar ao hardware o que ele deve fazer. 

4.5.3 Execucao fora de ordem e renomeacao de registrador 

Grande parte das CPUs modernas tem pipeline e tambem sao superescalares, conforme mostra a Figura 2.6. Em 
geral, isso significa que ha uma unidade de busca que retira palavras de instrugao da memoria antes que elas sejam 
necessarias, para alimentar uma unidade de decodificagao. Esta emite as instrugoes decodificadas para as unidades 
funcionais adequadas para execugao. Em alguns casos, ela pode desmembrar instrugoes individuais em micro- 
-operagoes antes de emiti-las para as unidades funcionais, dependendo do que as unidades funcionais podem fazer. 

Claro que o projeto da maquina e mais simples se as instrugoes forem executadas na ordem em que sao 
buscadas (considerando, por enquanto, que o algoritmo de previsao de desvio nunca faga uma previsao errada). 
Contudo, a execugao em ordem nem sempre resulta em desempenho ideal, devido as dependences entre instru¬ 
goes. Se uma instrugao precisar de um valor calculado pela anterior, a segunda nao pode comegar a executar ate 
que a primeira tenha produzido o valor necessario. Nessa situagao (uma dependencia RAW), a segunda instrugao 
tem de esperar. Tambem existem outros tipos de dependencia, como veremos em breve. 

Em uma tentativa de contornar esses problemas e produzir melhor desempenho, algumas CPUs permitem 
sal tar instrugoes dependentes para chegar a instrugoes futuras que nao sao dependentes. Nao e preciso dizer que o 
algoritmo de escalonamento de instrugoes internas usado deve causar o mesmo efeito que causaria se o programa 
fosse executado na ordem escrita. Agora, demonstraremos como a reordenagao de instrugoes funciona usando 
um exemplo detalhado. 

Para ilustrar a natureza do problema, comegaremos com uma maquina que sempre emite instrugoes na 
ordem do programa e tambem requer que sua execugao seja conclulda na ordem do programa. A significance 
dessa ultima exigencia ficara clara mais adiante. 

Nosso exemplo de maquina tem oito registradores visiveis para o programador, R0 ate R7. Todas as instru¬ 
goes aritmeticas usam tres registradores: dois para os operandos e um para o resultado, igual a Mic-4. Vamos 
considerar que, se uma instrugao for decodificada no ciclo n, a execugao inicia no ciclo n + 1. Para uma instrugao 
simples, como uma adigao ou subtragao, a escrita retroativa no registrador de destino ocorre ao final do ciclo 
n + 2. Para uma instrugao mais complicada, como uma multiplicagao, a escrita retroativa ocorre ao final do 
ciclo n + 3. Para tornar o exemplo realista, permitiremos que a unidade de decodificagao emita ate duas instrugoes 
por ciclo de clock. Ha varias CPUs escalares comerciais que podem emitir quatro ou ate seis por ciclo de clock. 

Nosso exemplo de sequencia de execugao e mostrado na Figura 4.43. Nesse caso, a primeira coluna da o 
numero do ciclo e a segunda da o numero da instrugao. A terceira coluna relaciona a instrugao decodificada. A 
quarta informa qual instrugao esta sendo emitida (com um maximo de duas por ciclo de clock ). A quinta informa 
qual instrugao foi retirada, ou conclulda. Lembre-se de que nesse exemplo estamos exigindo emissao em ordem, 
bem como conclusao em ordem, portanto, a instrugao k + 1 nao pode ser emitida ate que a k tenha sido emitida 
e a instrugao k + 1 nao pode ser retirada (ou seja, nao pode ser escrita retroativamente no registrador de destino) 
ate que k tenha sido retirada. As outras 16 colunas sao discutidas logo adiante. 
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Figura 4.43 


CPU superescalar com emissao em ordem e conclusao em ordem. 
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Apos decodificar a instrugao, a unidade de decodificagao tem de decidir se pode ou nao emiti-la imediata- 
mente. Para tomar essa decisao, a unidade de decodificagao precisa conhecer o estado de todos os registradores. 
Se, por exemplo, a instrugao corrente precisar de um registrador cujo valor ainda nao foi calculado, ela nao pode 
ser emitida e a CPU deve protelar. 

A utilizagao do registrador sera monitorada com um dispositivo denominado tabela de pontuagao ( score- 
board ), encontrado pela primeira vez no CDC 6600. A tabela tem um pequeno contador para cada registrador, 
que informa quantas vezes um determinado registrador e usado como uma fonte por instrugoes que estao sendo 
executadas naquele momento. Se, por exemplo, o numero maximo de instrugoes que podem ser executadas ao 
mesmo tempo for 15, entao um contador de 4 bits sera suficiente. Quando uma instrugao e emitida, as entradas da 
tabela de pontuagao para seus registradores de operandos sao incrementadas. Quando uma instrugao e retirada, 
as entradas sao decrementadas. 

A tabela de pontuagao tambem tem contadores para monitorar os registradores usados como destino. Uma 
vez que so e permitida uma escrita por vez, esses contadores podem ter um bit de largura. As 16 colunas da 
extrema direita na Figura 4.43 mostram a tabela de pontuagao. 

Em maquinas reais, a tabela tambem monitora a utilizagao da unidade funcional, para evitar emitir uma 
instrugao para a qual nao ha nenhuma unidade funcional disponlvel. Para simplificar, consideraremos que ha 
sempre uma, portanto, nao mostraremos as unidades funcionais na tabela de pontuagao. 

A primeira linha da Figura 4.43 mostra II (instrugao 1), que multiplica R0 por R1 e coloca o resultado em 
R3. Uma vez que nenhum desses registradores esta em uso ainda, a instrugao e emitida e a tabela de pontuagao e 
atualizada para refletir que R0 e R1 estao sendo lidos, e R3 esta sendo escrito. Nenhuma instrugao subsequente 
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pode escrever para qualquer um deles, nem pode ler R3, ate que II seja retirada. Visto que essa instrugao e uma 
multiplicagao, ela sera conclulda no final do ciclo 4. Os valores da tabela de pontuagao mostrados em cada linha 
refletem seus estados apos a emissao da instrugao que esta naquela linha. Entradas em branco sao Os. 

Visto que nosso exemplo e uma maquina superescalar que pode emitir duas instrugoes por ciclo, a segunda 
instrugao (12) e emitida durante o ciclo 1. Ela soma RO e R2 e armazena o resultado em R4. Para ver se essa ins¬ 
trugao pode ser emitida, sao aplicadas as seguintes regras: 

1. Se qualquer operando estiver sendo escrito, nao emita (dependencia RAW). 

2. Se o registrador de resultado estiver sendo lido, nao emita (dependencia WAR). 

3. Se o registrador de resultado estiver sendo escrito, nao emita (dependencia WAW). 


Ja vimos dependences RAW, que ocorrem quando uma instrugao precisa usar como fonte um resultado 
que uma instrugao previa ainda nao produziu. As outras duas dependences sao menos serias - sao, em essence, 
conflitos de recursos. Em uma dependencia WAR (Write After Read - escrita apos leitura), uma instrugao esta 
tentando sobrescrever um registrador que uma instrugao anterior pode nao ter terminado de ler ainda. Uma 
dependencia WAW (Write After Write - escrita apos escrita) e parecida. Muitas vezes, elas podem ser evitadas 
obrigando a segunda instrugao a colocar seus resultados em algum outro lugar (talvez temporariamente). Se nao 
existir nenhuma das tres dependences citadas e a unidade funcional de que a instrugao necessita estiver disponl- 
vel, a instrugao e emitida. Nesse caso, 12 usa um registrador (RO) que esta sendo lido por uma instrugao pendente, 
mas essa sobreposigao e permitida, portanto, 12 e emitida. De modo semelhante, 13 e emitida durante o ciclo 2. 

Agora, chegamos a 14, que precisa usar R4. Infelizmente, vemos pela linha 3 que R4 esta sendo escrita. Nesse 
caso, temos uma dependencia RAW, portanto, a unidade de decodificagao protela ate que R4 fique disponlvel. 
Durante a protelagao, a unidade de decodificagao para de retirar instrugoes da unidade de busca. Quando os 
buffers internos da unidade de busca estiverem cheios, ela para de fazer a busca antecipada. 

Vale a pena notar que a proxima instrugao na ordem do programa, 15, nao tern conflitos com nenhuma das 
instrugoes pendentes. Ela poderia ter sido decodificada e emitida se nao fosse pelo fa to de esse projeto exigir que 
as instrugoes sejam emitidas em ordem. 

Agora, vamos ver o que acontece durante o ciclo 3. 12, por ser uma adigao (dois ciclos), termina no final do 
ciclo 3. Infelizmente, ela nao pode ser retirada (e liberar R4 para 14). Por que nao? A razao e que esse projeto 
tambem requer retirada em ordem. Por que? Que mal poderia acontecer por fazer o armazenamento em R4 agora 
e marca-lo como disponlvel? 

A resposta e sutil, mas importante. Suponha que instrugoes pudessem concluir fora de ordem. Entao, se 
ocorresse uma interrupgao, seria muito diflcil salvar o estado da maquina de modo que ele pudesse ser restaura- 
do mais tarde. Em particular, nao seria posslvel afirmar que todas as instrugoes ate algum enderego tinham sido 
executadas e que todas as instrugoes depois dele, nao. Essa caracterlstica e denominada interrupgao exata e e 
desejavel em uma CPU (Moudgill e Vassiliadis, 1996). A retirada fora de ordem torna as interrupgoes inexatas, 
e e por isso que algumas maquinas requerem conclusao de instrugao em ordem. 

Voltando a nosso exemplo, no final do ciclo 4, todas as tres instrugoes pendentes podem ser retiradas, 
portanto, 14 pode ser enfim emitida no ciclo 5, junto com a 15 recem-decodificada. Sempre que uma instrugao e 
retirada, a unidade de decodificagao tern de verificar se ha uma instrugao protelada que agora possa ser emitida. 

No ciclo 6,16 e protelada por que ela precisa escrever para R1 , mas R1 esta ocupado. Por fim, ela e iniciada 
no ciclo 9. A sequencia inteira de oito instrugoes leva 18 ciclos para ser conclulda devido a muitas dependences, 
ainda que o hardware seja capaz de emitir duas instrugoes em cada ciclo. Entretanto, note que, ao ler a coluna 
Emit . da Figura 4.43 de cima para baixo, todas as instrugoes foram emitidas em ordem. Da mesma forma, a 
coluna Ret. mostra que elas tambem foram retiradas na ordem. 

Agora, vamos considerar um projeto alternativo: execugao fora de ordem. Nesse projeto, instrugoes podem 
ser emitidas e tambem podem ser retiradas fora de ordem. A mesma sequencia de oito instrugoes e mostrada na 
Figura 4.44, so que agora sao permitidas emissao fora de ordem e retirada fora de ordem. 



Caphulo 4 • 0 nivel de microarquitetura 


253 


Figura 4.44 


Operacao de uma CPU superescalar com emissao de instrucao fora de ordem e conclusao de instrucao fora de ordem. 
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A primeira diferenga ocorre no ciclo 3. Ainda que 14 tenha sido protelada, temos permissao para decodificar 
e emitir 15, uma vez que ela nao conflita com qualquer instrugao pendente. Contudo, saltar instrugoes causa um 
novo problema. Suponha que 15 tenha usado um operando calculado pela instrugao que foi saltada, 14. Com a tabe- 
la de pontuagao corrente, nao terlamos notado isso. Por conseguinte, temos de estender a tabela para monitorar 
os armazenamentos feitos por instrugoes que foram saltadas. Isso pode ser feito adicionando um segundo mapa de 
bits, 1 bit por registrador, para monitorar armazenamentos feitos por instrugoes proteladas. (Esses contadores nao 
sao mostrados na figura.) Agora, a regra de emissao tern de ser estendida para evitar a emissao de qualquer instru¬ 
gao que tenha um operando escalonado para ser armazenado por uma instrugao que veio antes, mas que foi saltada. 

Vamos voltar e examinar 16,17 e 18 na Figura 4.43. Nela, vemos que 16 calcula um valor em R1 que e usado 
por 17. Contudo, vemos tambem que o valor nunca e usado de novo porque 18 sobrescreve R1 . Nao ha nenhuma 
razao real para usar R1 como o lugar para conter o resultado de 16. Pior ainda, R1 e uma pessima escolha de 
registrador intermediario, embora seja perfeitamente razoavel para um compilador ou programador acostumado 
com a ideia de execugao sequencial sem nenhuma sobreposigao de instrugoes. 

Na Figura 4.44, introduzimos uma nova tecnica para resolver esse problema: registrador de renomeagao. 
A sabia unidade de decodificagao transfere a utilizagao de R1 em 16 (ciclo 3) e 17 (ciclo 4) para um registrador 
secreto, SI , que nao e visivel para o programador. Agora, 16 pode ser emitida ao mesmo tempo em que 15. CPUs 
modernas costumam ter dezenas de registradores secretos para usar com renomeagao de registrador. Essa tecnica 
muitas vezes pode eliminar dependences WAR e WAW. 

Em 18, usamos outra vez a renomeagao de registrador. Desta vez, R1 e renomeado para S2, de modo que 
a adigao pode ser iniciada antes que R1 esteja livre, no final do ciclo 6. Se acaso o resultado realmente tiver de 
estar em R1 desta vez, o conteudo de S2 sempre pode ser copiado de volta para la a tempo. Melhor ainda, todas 
as futuras instrugoes que precisem dele podem ter suas fontes renomeadas para o registrador onde elas de fato 
estao armazenadas. Seja como for, desse modo a adigao 18 conseguiu comegar mais cedo. 

Em muitas maquinas reais, a renomeagao esta profundamente embutida no modo como os registradores sao 
organizados. Ha muitos registradores secretos e uma tabela que mapeia os registradores visiveis ao programador 
para os registradores secretos. Assim, o registrador real que esta sendo usado para, por exemplo, RO, e localizado 
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examinando-se a entrada 0 dessa tabela de mapeamento. Desse modo, nao existe nenhum registrador real RO, 
mas apenas uma vinculagao entre o nome RO e um dos registradores secretos. Essa vinculagao muda muitas vezes 
durante a execugao, para evitar dependences. 

Note que, na Figura 4.44, quando lemos a quarta coluna de cima para baixo, as instrugoes nao foram emiti- 
das em ordem. Tampouco foram retiradas em ordem. A conclusao desse exemplo e simples: usando a execugao 
fora de ordem e a renomeagao de registrador, podemos acelerar o calculo por um fator de dois. 

4.5.4 Execucao especulativa 

Na segao anterior, introduzimos o conceito de reordenagao de instrugoes de modo a melhorar o desempe- 
nho. Embora nao o tenhamos mencionado explicitamente, o foco estava sobre a reordenagao de instrugoes dentro 
de um unico bloco basico. Agora, esta na hora de examinar essa questao mais de perto. 

Programas de computador podem ser desmembrados em blocos basicos, em que cada um consiste em uma 
sequencia linear de codigo com um ponto de entrada no inlcio e uma salda no final. Um bloco basico nao con- 
tem qualquer estrutura de controle (por exemplo, instrugoes if ou declaragoes while), de modo que sua tradugao 
para linguagem de maquina nao contem nenhum desvio. Os blocos basicos sao conectados por declaragoes de 
controle. 

Um programa nessa forma pode ser representado por um grafico orientado, conforme mostra a Figura 4.45. 
Nesse exemplo, calculamos as somas dos cubos dos inteiros pares e unpares ate algum limite e as acumulamos 
em evensum e oddsum , respectivamente. Dentro de cada bloco basico, as tecnicas de reordenagao da segao anterior 
funcionam bem. 


Figura 4.45 (a) Fragmento de programa. (b) Grafico de blocos basicos correspondente. 


evensum = 0; 
oddsum = 0; 
i = 0; 

while (i < limit) { 
k = i * i * i; 
if (((i/2) * 2) = = i) 

evensum = evensum + k; 
else 

oddsum = oddsum + k; 
i = i + 1; 

} 

(a) 



O problema e que a maioria dos blocos basicos e curta e nao ha paralelismo suficiente para explora-los de 
modo efetivo. Por conseguinte, a proxima etapa e permitir que a reordenagao cruze as fronteiras de blocos basicos 
na tentativa de preencher todas as posigoes de emissao. Os maiores ganhos ocorrem quando uma operagao poten- 
cialmente lenta pode ser passada para cima no grafico para ser iniciada mais cedo. Essa instrugao pode ser uma 
instrugao LOAD, uma operagao de ponto flutuante ou ate mesmo o inlcio de uma longa cadeia de dependencia. 
A transferencia de um codigo para cima atraves de um desvio e denominada elevagao. 
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Imagine que, na Figura 4.45, todas as variaveis fossem mantidas em registradores, exceto evensum e oddsum, 
por falta de registradores. Portanto, talvez fizesse sentido passar suas instrugoes LOAD para o topo do lago antes 
de calcular k, para inicia-las cedo, de modo que os valores estarao disponlveis quando necessarios. Claro que 
somente uma delas sera necessaria em cada iteragao, portanto, a outra LOAD sera desperdigada, mas se a cache e 
a memoria tiverem pipelining e houver posigoes de emissao disponlveis, talvez ainda valesse a pena fazer isso. A 
execugao de codigo antes mesmo de saber se ele sera necessario e denominada execugao especulativa. Usar essa 
tecnica requer suporte do compilador e do hardware, bem como algumas extensoes na arquitetura. Em geral, 
reordenar instrugoes atravessando fronteiras de blocos basicos esta alem da capacidade do hardware, portanto, o 
compilador deve mover as instrugoes explicitamente. 

A execugao especulativa introduz alguns problemas interessantes. Um deles e que nenhuma das instrugoes 
especulativas tern resultados irrevogaveis, porque mais tarde pode-se descobrir que elas nao deveriam ter sido 
executadas. Na Figura 4.45, e bom buscar evensum e oddsum, e tambem e bom efetuar a adigao tao logo k esteja 
disponlvel (mesmo antes da declaragao if), mas nao e bom armazenar os resultados de volta na memoria. Em 
sequencias de codigo mais complicadas, um modo comum de evitar que o codigo especulativo sobrescreva regis¬ 
tradores antes de se saber se isso e desejado e renomear todos os registradores de destino usados pelo codigo 
especulativo. Desse modo, apenas registradores temporarios sao modificados, portanto, nao ha problema algum 
se, afinal, o codigo nao for necessario. Se o codigo for necessario, os registradores transitorios sao copiados para 
os verdadeiros registradores de destino. Como voce pode imaginar, a tabela de pontuagao para monitorar tudo 
isso nao e simples, mas, com hardware suficiente, pode ser feita. 

Entretanto, ha outro problema introduzido pelo codigo especulativo que nao pode ser resolvido por reno- 
meagao de registrador. O que acontece se uma instrugao executada por especulagao causar uma excegao? Um 
exemplo doloroso, mas nao fatal, e uma instrugao LOAD que causa uma ausencia da cache em uma maquina cuja 
linha de cache e de tamanho grande (por exemplo, 256 bytes) e a memoria e muito mais lenta do que a CPU 
e a cache. Se um LOAD que e realmente necessario fizer a maquina parar de vez durante muitos ciclos enquanto 
a linha de cache esta sendo carregada, bom, sao coisas da vida, ja que a palavra e necessaria. Contudo, protelar a 
maquina para buscar uma palavra que, afinal, nao e necessaria, e contraproducente. Muitas dessas “otimizagoes” 
podem fazer a CPU ficar mais lenta do que se ela nao as tivesse. Se a maquina tiver memoria virtual, que e dis- 
cutida no Capltulo 6, um LOAD especulativo pode ate causar uma falta de pagina, o que requer uma operagao de 
disco para trazer a pagina necessaria. Falsas faltas de pagina podem causar um efeito terrivel sobre o desempenho, 
portanto, e importante evita-las. 

Uma solugao presente em varias maquinas modernas e inserir uma instrugao SPECULATIVE-LOAD que tenta 
buscar a palavra na cache, mas, se ela nao estiver la, desiste. Se o valor estiver na cache quando for mesmo neces¬ 
sario, ele pode ser usado ou nao; caso nao esteja, o hardware tern de entrar em cena e obte-lo imediatamente. Se 
o valor se revelar nao necessario, nada de ruim aconteceu pela ausencia da cache. 

Uma situagao muito pior pode ser ilustrada com a seguinte declaragao: 

if (x > 0) z = y/x; 

em que x, y e z sao variaveis de ponto flutuante. Suponha que as variaveis sao todas buscadas com anteceden- 
cia para registradores e que a divisao com ponto flutuante (uma operagao lenta) e elevada para cima do teste if. 
Infelizmente, xeOea excegao resultante, isto e, a divisao por zero, encerra o programa. O resultado llquido e 
que a especulagao causou a falha de um programa correto. Pior ainda, o programador inseriu um codigo explicito 
para evitar essa situagao e, mesmo assim, ela aconteceu. Provavelmente, o programador nao ficara feliz com isso. 

Uma solugao posslvel e ter versoes especiais e instrugoes que poderiam causar excegoes. Alem disso, um 
bit denominado bit envenenado e adicionado a cada registrador. Quando uma instrugao especulativa especial 
falhar, em vez de causar uma excegao, ela ajusta o bit envenenado no registrador de resultado. Se mais adiante 
uma instrugao normal chegar a esse registrador, a armadilha ocorre nesse momento (como deveria). Contudo, 
se o resultado nunca e usado, o bit envenenado mais cedo ou mais tarde e eliminado e nao ha prejulzo algum. 
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4.6 Exemplos do nivel de microarquitetura 

Nesta segao, apresentaremos exemplos resumidos de tres processadores de alta tecnologia, mostrando como 
eles empregam os conceitos explorados neste capltulo. Os exemplos terao que ser breves porque maquinas reais 
sao de uma complexidade enorme, contendo milhoes de portas. Os exemplos sao os mesmos que usamos ate 
agora: Core i7, OMAP4430 e ATmegal68. 

4.6.1 A microarquitetura da CPU Core i7 

Por fora, o Core i7 parece uma maquina CISC tradicional, com um conjunto de instrugoes imenso e desajeitado 
que suporta operagoes com inteiros de 8, 16 e 32 bits, bem como operagoes de ponto flutuante de 32 bits e 64 bits. 
Tern somente oito registradores visiveis por processador e nao ha dois deles que sejam exatamente iguais. Os com- 
primentos de instrugoes variam de 1 a 17 bytes. Resumindo, e uma arquitetura herdada que parece fazer tudo errado. 

Entretanto, por dentro, contem um nucleo RISC moderno, enxuto e de alto grau de pipelining , que trabalha a 
uma taxa de clock de extrema rapidez e que provavelmente crescera nos anos vindouros. E impressionante como 
os engenheiros da Intel conseguiram construir um processador de ultima geragao para implementar uma arquite¬ 
tura antiga. Nesta segao, examinaremos a microarquitetura do Core i7 para ver como ela funciona. 

• Visao geral da microarquitetura Sandy Bridge do Core i7 

A microarquitetura do Core i7, denominada microarquitetura Sandy Bridge, e uma ruptura total em relagao 
as microarquiteturas Intel anteriores, incluindo as antigas P4 e P6. Uma visao geral esquematica da microarqui¬ 
tetura do Core i7 e dada na Figura 4.46. 


Figura 4.46 


Diagrama de blocos do Core i7. 



Terminal frontal Controle de fora de ordem 


O Core i7 consiste em quatro subsegoes principais: o subsistema de memoria, o terminal frontal, o controle 
de fora de ordem e as unidades de execugao. Vamos examina-las uma por uma, comegando na parte superior 
esquerda e percorrendo o chip em sentido anti-horario. 
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Cada processador no Core i7 contem um subsistema de memoria com uma cache L2 (de nivel 2) unificada, 
bem como a logica para acessar a cache L3 (nivel 3). Uma unica cache L3 grande e compartilhada por todos os 
processadores, e essa e a ultima parada antes de sair do chip da CPU e fazer a longa jornada ate a RAM externa 
pelo barramento de memoria. As caches L2 do Core i7 tern um tamanho de 256 KB, e cada uma e organizada 
como uma cache associativa de 8 vias com linhas de 64 bytes. A cache L3 compartilhada varia em tamanho de 1 
MB a 20 MB. Se voce pagar mais a Intel, tera mais cache em retorno. Independentemente do seu tamanho, a L3 e 
organizada como uma cache associativa em 12 vias, com linhas de cache de 64 bytes. Caso haja uma ausencia de 
cache L3, o acesso e enviado a RAM externa por meio do barramento de RAM DDR3. 

Associada a cache LI estao duas unidades de busca antecipada (que nao aparecem na figura) que tentam 
buscar dados com antecedencia de nlveis inferiores do sistema de memoria para a cache LI, antes de eles serem 
necessarios. Uma unidade de busca antecipada consulta o proximo bloco de memoria quando detecta que um 
“fluxo” de sequencia da memoria esta sendo buscado para o processador. Um segundo buscador antecipado, mais 
sofisticado, cuida da sequencia de enderegos dos loads e stores do programa especlfico. Se eles prosseguirem a um 
passo regular (por exemplo, 0x1000... 0x1020... 0x1040...), ele buscara o proximo elemento que provavelmente 
sera acessado de modo antecipado ao programa. Essa pre-busca orientada a passo faz maravilhas para programas 
que estao marchando pelas fileiras de variaveis estruturadas. 

O subsistema de memoria na Figura 4.46 esta conectado tanto ao terminal frontal quanto a cache de dados 
LI. O terminal frontal e responsavel por buscar instrugoes do sistema de memoria, decodificando-as para micro- 
-operagoes parecidas com RISC e armazenando-as em duas caches de armazenamento de instrugao. Todas as ins¬ 
trugoes buscadas sao colocadas na cache de instrugao LI (nivel 1). Esta tern um tamanho de 32 KB e e organizada 
como uma cache associativa de 8 vias com blocos de 64 bytes. A medida que as instrugoes sao buscadas da cache 
LI, elas entram nos decodificadores que determinam a sequencia de micro-operagoes usada para implementar 
a instrugao no pipeline de execugao. O mecanismo decodificador une a lacuna entre um conjunto de instrugoes 
CISC antigo e um caminho de dados RISC moderno. 

As micro-operagoes decodificadas sao alimentadas na cache de micro-operagoes, que a Intel chama de cache 
de instrugoes L0 (de nivel 0). Ela e semelhante a uma cache de instrugoes tradicional, mas tern muito espago 
extra para armazenar as sequencias de micro-operagoes produzidas pelas instrugoes individuais. Quando as 
micro-operagoes decodificadas, em vez das instrugoes originais, sao colocadas em cache , nao e preciso deco- 
dificar a instrugao em execugoes subsequentes. A primeira vista, voce poderia pensar que a Intel fez isso para 
acelerar o pipeline (e, na verdade, isso agiliza o processo de produgao de uma instrugao), mas a empresa afirma 
que a cache de micro-operagoes foi inclulda para reduzir o consumo de potencia do terminal frontal. Com a 
cache de micro-operagoes no lugar, o restante do terminal frontal dorme em um modo de baixa potencia sem 
clock durante 80% do tempo. 

A previsao de desvio tambem e realizada no terminal frontal. O previsor de desvio e responsavel por desco- 
brir quando o fluxo do programa sai da busca de sequencia pura, e deve ser capaz de fazer isso muito antes que 
as instrugoes de desvio sejam executadas. O previsor de desvio no Core i7 e incrlvel. Infelizmente para nos, os 
detalhes dos previsores de desvio do processador sao segredos mantidos para a maior parte dos projetos. Isso por- 
que o desempenho do previsor geralmente e o componente mais crltico da velocidade geral do projeto. Quanto 
mais exatidao na previsao os projetistas puderem espremer de cada micrometro quadrado de sillcio, melhor o 
desempenho do projeto inteiro. Assim, as empresas escondem esses segredos a sete chaves, e ate mesmo ameagam 
os funcionarios com processo criminal se qualquer um deles decidir compartilhar essas joias de conhecimento. 
Basta dizer, no entanto, que todos eles acompanham de que modo os desvios anteriores seguiram e usam isso para 
fazer previsoes. Os detalhes de exatamente o que eles registram e como eles armazenam e consultam a informagao 
e um algoritmo altamente secreto. Afinal, se voce tivesse um modo infallvel de prever o futuro, e bem provavel 
que nao o colocaria na Web para todo mundo ver. 

Instrugoes sao alimentadas da cache de micro-operagoes para o escalonador fora de ordem, na ordem ditada 
pelo programa, porem, elas nao sao necessariamente emitidas na ordem do programa. Quando e encontrada uma 
micro-operagao que nao pode ser executada, o escalonador a retem mas continua processando o fluxo de instru¬ 
goes para emitir instrugoes subsequentes para as quais todos os recursos (registradores, unidades funcionais etc.) 
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estao disponlveis. A renomeagao de registradores tambem e feita aqui, para permitir que instrugoes com uma 
dependencia WAR ou WAW prossigam sem atraso. 

Embora instrugoes possam ser emitidas fora de ordem, o requisito de interrupgoes exatas da arquitetura do 
Core i7 significa que as instrugoes ISA devem ser retiradas (isto e, seus resultados devem ficar vislveis) na ordem 
original do programa. A unidade de retirada executa essa tarefa. 

No back end do processador, temos as unidades de execugao que efetuam as instrugoes de inteiros, de ponto 
flutuante e especializadas. Existem varias dessas unidades e elas funcionam em paralelo. Elas obtem seus dados 
do arquivo do registrador e da cache de dados LI. 

• 0 pipeline da Sandy Bridge do Core \1 

A Figura 4.47 e uma versao simplificada da microarquitetura Sandy Bridge, mostrando o pipeline. Na parte 
superior, esta o terminal frontal, cuja tarefa e buscar instrugoes na memoria e prepara-las para execugao. O 
terminal frontal recebe novas instrugoes x86 da cache de instrugoes LI. Ele as decodifica para micro-operagoes 
para armazenamento na cache de micro-operagoes, que retem mais ou menos 1,5 K micro-operagoes. Uma cache 
de micro-operagoes desse tamanho da um desempenho comparavel ao de uma cache LO convencional de 6 KB. 
A cache de micro-operagoes contem grupos de seis micro-operagoes em uma unica linha de rastreamento. Para 
sequencias mais longas de micro-operagoes, varias linhas de rastreamento podem ser interligadas. 


Figura 4.47 


Visao simplificada do caminho de dados do Core i7. 



Se a unidade de decodificagao encontrar um desvio condicional, ela consulta sua diregao prevista no Previsor 
de Desvio. O previsor de desvio contem o historico dos desvios encontrados no passado e usa esse historico para 
descobrir se um desvio condicional sera ou nao tornado da proxima vez que for encontrado. E al que e usado o 
algoritmo altamente secreto. 

Se a instrugao de desvio nao estiver na tabela, e usada previsao estatica. Um desvio para tras e entendido 
como parte de um lago e admite-se que deve ser tornado. A exatidao dessas previsoes estaticas e extremamente 
alta. Um desvio para frente e entendido como parte de uma declaragao if e admite-se que nao deve ser tornado. A 
exatidao dessas previsoes estaticas e bem mais baixa do que a de desvios para tras. 
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Para um desvio tornado, o BTB (Branch Target Buffer - buffer de alvo de desvio) e consultado para deter- 
minar o enderego de destino. O BTB mantem o enderego de destino do desvio na ultima vez que ele foi tornado. 
Quase sempre, esse enderego esta correto (na verdade, ele esta sempre correto para desvios com um deslocamento 
constante). Os desvios indiretos, como os usados pelas chamadas de fungao virtual e comandos switch da C++, 
vao para muitos enderegos, e eles podem ser interpretados incorretamente pelo BTB. 

A segunda parte do pipeline, a logica de controle fora de ordem, e alimentada a partir da cache de micro- 
-operagoes. A medida que cada micro-operagao chega ao terminal frontal, ate quatro por ciclo, a unidade de 
alocagao/renomeagao a registra em uma tabela de 168 entradas denominada ROB (ReOrder Buffer - buffer 
de reordenagao). Essa entrada monitora o estado da micro-operagao ate ela ser retirada. Em seguida, a unidade de 
alocagao/renomeagao verifica para ver se os recursos de que a micro-operagao necessita estao disponlveis. 
Se estiverem, ela e enfileirada para execugao em uma das filas do escalonador. Sao mantidas filas separadas 
para micro-operagoes da memoria e para as que nao sao da memoria. Se uma micro-operagao nao puder ser 
executada, ela e retardada, mas as subsequentes sao processadas, o que leva a execugao fora de ordem das 
micro-operagoes. Essa estrategia foi projetada para manter todas as unidades funcionais o mais ocupadas possl- 
vel. Ate 154 instrugoes podem estar no ar a qualquer instante e ate 64 dessas podem ser carregadas da memoria 
e ate 36 podem ser armazenamentos para a memoria. 

As vezes, uma micro-operagao e protelada porque precisa escrever para um registrador que esta sendo lido 
ou escrito por uma micro-operagao anterior. Esses conflitos sao denominados dependences WAR e WAW, res- 
pectivamente, como vimos antes. Renomeando o alvo da nova micro-operagao para permitir que ela escreva seu 
resultado em um dos 160 registradores transitorios em vez de no alvo pretendido, mas ainda ocupado, pode ser 
posslvel escalonar a micro-operagao para execugao imediatamente. Se nao houver nenhum registrador transitorio 
disponlvel, ou se a micro-operagao tiver uma dependencia RAW (que nunca podera ser ignorada), o alocador 
observa a natureza do problema na entrada do ROB. Quando todos os recursos requisitados ficam disponlveis 
mais tarde, a micro-operagao e colocada em uma das filas do escalonador. 

O escalonador envia as micro-operagoes para as seis unidades funcionais quando elas estiverem prontas para 
executar. As unidades funcionais sao as seguintes: 

1. ULA lea unidade de multiplicagao de ponto flutuante. 

2. ULA 2 e a unidade de adigao/subtragao de ponto flutuante. 

3. ULA 3 e a unidade de processamento de desvio e comparagoes de ponto flutuante. 

4. Instrugoes store. 

5. Instrugoes load 1. 

6. Instrugoes load 2. 

Uma vez que os escalonadores e as ULAs podem processar uma operagao por ciclo, um Core i7 de 3 GHz 
tern o desempenho do escalonador para realizar 18 bilhoes de operagoes por segundo; porem, o processador 
na realidade nunca alcangara esse nivel de vazao. Visto que o terminal frontal fornece no maximo quatro 
micro-operagoes por ciclo, seis micro-operagoes so podem ser emitidas em curtas rajadas, pois logo as filas do 
escalonador se esvaziarao. Alem disso, cada unidade de memoria usa quatro ciclos para processar suas opera- 
goes, de modo que elas poderiam contribuir para a vazao de execugao maxima apenas em pequenas rajadas. 
Apesar de serem capazes de saturar totalmente os recursos de execugao, as unidades funcionais oferecem uma 
capacidade de execugao significativa, e e por isso que o controle de fora de ordem tern tanto trabalho para 
encontrar trabalho para ela realizarem. 

As tres ULAs de inteiros nao sao identicas. A ULA 1 pode executar todas as operagoes aritmeticas, logicas, 
multiplicagoes e desvios. A ULA 2 pode efetuar apenas operagoes aritmeticas e logicas. A ULA 3 pode realizar 
operagoes aritmeticas e logicas e resolver desvios. Da mesma forma, as duas unidades de ponto flutuante tambem 
nao sao identicas. A primeira pode realizar aritmetica de ponto flutuante, incluindo multiplicagoes, enquanto a 
segunda so pode realizar adigoes, subtragoes e movimentagoes de ponto flutuante. 
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As unidades de ULA e ponto flutuante sao alimentadas por um par de arquivos de registradores de 128 entra- 
das, um para inteiros e um para numeros de ponto flutuante. Eles fornecem todos os operandos para as instrugoes 
a serem executadas e um repositorio para resultados. Devido a renomeagao de registradores, oito deles contem os 
registradores visiveis no nivel ISA (EAX, EBX, ECX, EDX etc.), porem, quais oito deles retem os valores “reais” 
varia ao longo do tempo a medida que o mapeamento muda durante a execugao. 

A arquitetura Sandy Bridge introduziu a Advanced Vector Extensions (AVX), que admite operagoes de vetor 
com dados paralelos de 128 bits. As operagoes de vetor incluem vetores de ponto flutuante e inteiros, e essa nova 
extensao ISA representa um aumento de duas vezes no tamanho dos vetores agora admitidos em comparagao com 
as extensoes ISA SSE e SSE2 anteriores. Como a arquitetura executa operagoes de 256 bits somente com caminhos 
de dados e unidades funcionais de 128 bits? Ela coordena, de modo inteligente, duas portas de escalonador de 
128 bits para produzir uma unica unidade funcional de 256 bits. 

A cache de dados LI e firmemente acoplada ao bach end da arquitetura paralela Sandy Bridge. Ela e uma cache 
de 32 KB e mantem inteiros numeros de ponto flutuante e outros tipos de dados. Diferente da cache de micro-ope¬ 
ragoes, ela nao e decodificada de modo algum e apenas retem uma copia dos bytes na memoria. A cache de dados LI 
e uma cache associativa de 8 vias com 64 bytes por linha. E uma cache de escrita direta, o que significa que, quando 
uma linha de cache e modificada, e imediatamente copiada de volta para a cache L2 quando sai da cache de dados 
LI. A cache pode manipular duas operagoes de leitura e uma de escrita por ciclo de clock. Esses multiplos acessos 
sao executados usando banking , que divide a cache em subcaches separadas (8 no caso da Sandy Bridge). Desde que 
todos os tres acessos sejam para bancos separados, eles podem prosseguir em sequencia; caso contrario, todos menos 
um dos acessos conflitantes ao banco terao que ser protelados. Quando uma palavra necessaria nao estiver presente 
na cache LI, uma requisigao e enviada a L2 que, ou responde imediatamente, ou busca a linha de cache na L3 com- 
partilhada e entao responde. Ate dez requisigoes da cache LI a cache L2 podem estar em curso a qualquer instante. 

Como micro-operagoes sao executadas fora de uma ordem, nao sao permitidos armazenamentos ( stores ) na 
cache LI ate que todas as instrugoes anteriores a que causou o armazenamento tenham sido retiradas. A tarefa 
da unidade de retirada e retirar instrugoes, em ordem, e monitorar onde elas estao. Se ocorrer uma interrupgao, 
as instrugoes que ainda nao foram retiradas sao abortadas, portanto, o Core i7 tern “interrupgoes precisas”, de 
modo que, na ocorrencia de uma interrupgao, todas as instrugoes foram concluldas ate um determinado ponto, 
e nenhuma instrugao apos essa interrupgao tern qualquer efeito. 

Se uma instrugao de armazenamento foi retirada, mas instrugoes anteriores ainda estiverem em curso, a 
cache LI nao pode ser atualizada, portanto, os resultados sao colocados em um buffer especial de armazenamento 
pendente. Esse buffer tern 36 entradas, correspondentes aos 36 armazenamentos que podem estar em execugao 
ao mesmo tempo. Se uma carga subsequente tentar ler os dados armazenados, ela pode ser passada do buffer de 
armazenamento pendente para a instrugao, mesmo que ainda nao esteja na cache de dados LI. Esse processo e 
denominado repasse de armazenamento para carga. Embora tal mecanismo de encaminhamento possa parecer 
simples, na pratica e muito complicado de se realizar, pois os armazenamentos intervenientes podem ainda nao 
ter calculado seus enderegos. Nesse caso, a microarquitetura pode nao saber definitivamente qual armazenamento 
no buffer produzira o valor necessario. O processo de determinagao de qual armazenamento oferece o valor para 
uma carga e chamado de desambiguagao. 

A essa altura, deve estar claro que o Core i7 tern uma microarquitetura de aha complexidade cujo projeto foi 
dirigido pela necessidade de executar o antigo conjunto de instrugoes Pentium em um nucleo RISC moderno, de 
alto grau de pipelining. Ele cumpre esse objetivo desmembrando instrugoes Pentium em micro-operagoes, colo- 
cando-as em cache e alimentando-as no pipeline quatro por vez para execugao em um conjunto de ULAs capaz de 
executar ate seis micro-operagoes por ciclo em condigoes ideais. Micro-operagoes sao executadas fora de ordem, 
mas retiradas em ordem e os resultados sao armazenados nas caches LI e L2 em ordem. 


4.6.2 A microarquitetura da CPU 0MAP4430 

No nucleo do sistema-em-um-chip OMAP4430 estao dois processadores ARM Cortex A9. O Cortex A9 e 
uma microarquitetura de alto desempenho, que executa o conjunto de instrugoes ARM (versao 7). O processador 
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foi projetado pela ARM Ltd. e esta incluldo com pequenas variagoes em uma grande variedade de dispositivos 
embutidos. A ARM nao fabrica o processador, mas apenas fornece o projeto para os fabricantes de sillcio que 
desejam incorpora-lo em seu projeto de sistema-em-um-chip (Texas Instruments, neste caso). 

O processador Cortex A9 e uma maquina de 32 bits, com registradores de 32 bits e um caminho de dados de 
32 bits. Assim como a arquitetura interna, o barramento de memoria tern 32 bits de largura. Diferente do Core i7, 
o Cortex A9 e uma arquitetura RISC verdadeira, o que significa que ela nao precisa de um mecanismo complexo 
para converter antigas instrugoes CISC em micro-operagoes para execugao. Na verdade, as instrugoes do nucleo 
ja sao instrugoes ARM do tipo das micro-operagoes. Contudo, nos ultimos anos foram adicionadas instrugoes 
graficas e de multimldia, que requerem hardware especial para sua execugao. 

• Visao geral da microarquitetura Cortex A9 do OMAP4430 

O diagrama de blocos da microarquitetura Cortex A9 e dado na Figura 4.48. No todo, ele e muito mais 
simples do que a microarquitetura Sandy Bridge do Core i7 porque tern uma arquitetura ISA mais simples para 
implementar. Ainda assim, alguns dos componentes basicos sao semelhantes aos usados no Core i7. As seme- 
lhangas sao, em sua maioria, comandadas pela tecnologia, restrigoes de energia ou por razoes economicas. Por 
exemplo, os dois projetos empregam uma hierarquia de cache multinlvel para atender as rigorosas restrigoes de 
custo das aplicagoes embutidas tlpicas; porem, o ultimo nivel do sistema de memoria cache do Cortex A9 (L2) 
tern apenas 1 MB de tamanho, muito menor do que no Core i7, que admite caches de ultimo nivel (L3) de ate 20 
MB. As diferengas, ao contrario, se devem principalmente a diferenga entre ter ou nao ter de preencher a lacuna 
entre um conjunto de instrugao CISC antigo e um nucleo RISC moderno. 


Figura 4.48 


Diagrama de blocos da microarquitetura Cortex A9 da CPU 0MAP4430. 


A memoria 



Na parte superior da Figura 4.48 esta a cache de instrugoes associativa de 4 vias e 32 KB, que usa linhas de 
cache de 32 bytes. Ja que a maioria das instrugoes ARM e de 4 bytes, ha espago para cerca de 8 K instrugoes 
nessa cache , bem maior que a de micro-operagoes do Core i7. 

A unidade de emissao de instrugao prepara ate quatro instrugoes para execugao por ciclo de clock. Se hou- 
ver uma ausencia na cache LI, menos instrugoes serao emitidas. Quando e encontrado um desvio condicional, 
um previsor de desvio com 4 K entradas e consultado para prever se busca a proxima instrugao ou a que esta 
no enderego de destino. Se for previsto o caminho tornado, a cache de enderego de destino do desvio com 1 K 
entrada e consultada em busca do enderego de destino previsto. Alem disso, se o terminal frontal detectar que o 
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programa esta executando um la go estreito (ou seja, um pequeno lago nao aninhado), ele o carregara na cache 
look-aside de lago rapido. Essa otimizagao acelera a busca de instrugoes e reduz o consumo de energia, pois as 
caches e os previsores de desvio podem estar em um modo de baixo consumo de energia enquanto o lago estreito 
esta sendo executado. 

A salda da unidade de missao de instrugao flui para os decodificadores, que determinam quais recursos e 
entradas sao necessarios pelas instrugoes. Assim como o Core i7, as instrugoes sao renomeadas apos a decodifi- 
cagao, para eliminar dependences WAR que podem atrasar a execugao fora de ordem. Depois da renomeagao, as 
instrugoes sao colocadas na fila de despacho de instrugoes, que as emitira quando as entradas estiverem prontas 
para as unidades funcionais, potencialmente fora de ordem. 

A fila de despacho de instrugoes envia instrugoes para as unidades funcionais, como mostra a Figura 4.48. A 
unidade de execugao de inteiros contem duas ULAs, bem como um pequeno pipeline para instrugoes de desvio. 
O arquivo de registradores flsicos, que mantem registradores ISA e alguns temporarios, tambem estao contidos la. 
O pipeline do Cortex A9 opcionalmente pode conter um ou mais mecanismos de computagao, que atuam como 
unidades funcionais extras. O ARM admite um mecanismo para calculo de ponto flutuante, chamado VFP, e um 
mecanismo de calculo de vetor SIMD, chamado NEON. 

A unidade de load!store manipula varias instrugoes de carga e armazenamento, e tern caminhos para a cache 
de dados e o buffer de armazenamento. A cache de dados e uma tradicional cache de dados El associativa de 
quatro vias e 32 KB que usa uma linha de 32 bytes de tamanho. O buffer de armazenamento mantem os armaze- 
namentos que ainda nao gravaram seu valor na cache de dados (na retirada). Uma carga que e executada tentara 
primeiro buscar seu valor do buffer de armazenamento, usando o encaminhamento store-to-load , como o do Core 
i7. Se o valor nao estiver disponlvel no buffer de armazenamento, ele o buscara da cache de dados. Um resultado 
posslvel de uma execugao de carga e uma indicagao, do buffer de armazenamento, que ele deve esperar, pois um 
armazenamento anterior com um enderego desconhecido esta bloqueando sua execugao. No even to de ausencia 
de dados na cache de dados LI, o bloco de memoria sera buscado da cache unificada L2. Em certas circunstancias, 
o Cortex A9 tambem realiza a busca antecipada em hardware da cache L2 para a cache de dados LI, de modo a 
melhorar o desempenho de cargas e armazenamentos. 

O chip OMAP 4430 tambem contem logica para controlar o acesso a memoria. Essa logica e subdividida 
em duas partes: a interface de sistema e o controlador de memoria. A interface de sistema faz a ligagao com a 
memoria por um barramento LPDDR2 de 32 bits de largura. Todas as requisigoes de memoria para o mundo 
exterior passam por essa interface. O barramento LPDDR2 admite um enderego de 26 bits (palavra, nao byte) 
para 8 bancos por canal LPDDR2. O OMAP4430 tern dois deles, de modo que pode enderegar ate 4 GB de 
RAM externa. 

O controlador de memoria mapeia enderegos virtuais de 32 bits para enderegos flsicos de 32 bits. O Cortex 
A9 suporta memoria virtual (discutida no Capltulo 6), com um tamanho de pagina de 4 KB. Para acelerar o 
mapeamento, sao fornecidas tabelas especiais denominadas TLBs (Translation Lookaside Buffers - buffers de 
tradugao lateral), para comparar o enderego virtual corrente que esta sendo referenciado com os enderegos 
referenciados no passado recente. Duas dessas tabelas sao fornecidas para o mapeamento de enderegos de ins¬ 
trugoes e dados. 

• Pipeline no Cortex A9 da CPU OMAP4430 

O Cortex A9 tern um pipeline de 11 estagios, ilustrado em forma simplificada na Figura 4.49. Os 11 estagios 
sao designados por nomes de estagios curtos, mostrados no lado esquerdo da figura. Vamos agora examinar rapi- 
damente cada um. O estagio Eel (Fetch #1) esta no inlcio do pipeline. E nele que o enderego da proxima instrugao 
a ser buscada e usado para indexar a cache de instrugoes e iniciar uma previsao de desvio. Em geral, esse enderego 
e um a mais que o da instrugao anterior. Porem, essa ordem sequencial pode ser quebrada por diversos motivos, 
como quando uma instrugao anterior e um desvio que foi previsto para ser tornado, ou quando uma interrupgao 
precisa ser atendida. Como a busca de instrugao e previsao de desvio ocupam mais de um ciclo, o estagio Fe2 
(Fetch #2) oferece tempo extra para executar essas operagoes. No estagio Fe 3 (Fetch #3), as instrugoes buscadas 
(ate quatro) sao colocadas na fila de instrugoes. 
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Figura 4.49 Uma representacao simplificada do pipeline do Cortex A9 da CPU 0MAP4430. 



Os estagios Del e Del (Decodificagao) decodificam as instrugoes. Essa etapa determina de quais entradas as 
instrugoes precisarao (registradores e memoria) e quais recursos elas exigirao para serem executadas (unidades 
funcionais). Quando a decodificagao estiver conclulda, as instrugoes entram no estagio Re (Renomeagao), onde 
os registradores acessados sao renomeados para eliminar dependences WAR e WAW durante a execugao fora de 
ordem. Esse estagio contem a tabela de renomeagao que registra qual registrador flsico mantem todos os regis¬ 
tradores arquitetonicos. Usando essa tabela, qualquer registrador de entrada pode ser facilmente renomeado. O 
registrador de salda devera receber um novo registrador flsico, que e retirado de um conjunto de registradores 
flsicos nao usados. O registrador flsico designado estara em uso pela instrugao ate que ela seja retirada. 

Em seguida, as instrugoes entram no estagio Iss (Instruction Issue - emissao de instrugao), em que elas 
sao langadas para a fila de emissao de instrugao. A fila de emissao observa instrugoes cujas entradas estao todas 
prontas. Quando prontas, suas entradas de registrador sao adquiridas (do arquivo de registrador flsico ou do 
barramento de contorno) e entao a instrugao e enviada aos estagios de execugao. Assim como o Core i7, o Cortex 
A9 potencialmente emite instrugoes fora da ordem do programa. Ate quatro instrugoes podem ser emitidas a cada 
ciclo. A escolha das instrugoes e restringida pelas unidades funcionais disponlveis. 
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Os estagios Ex (Execugao) sao onde as instrugoes sao de fa to executadas. Quase todas as instrugoes aritmeti- 
cas, booleanas e de deslocamento utilizam as ULAs de inteiros e sao concluldas em um ciclo. Cargas e armazena- 
mentos utilizam dois ciclos (se estiverem presentes na cache LI), e multiplicagoes utilizam tres ciclos. Os estagios 
Ex contem varias unidades funcionais, que sao: 

1. ULA 1 de inteiros. 

2. ULA 2 de inteiros. 

3. Unidade de multiplicagao. 

4. ULA de ponto flutuante e vetor de SIMD (opcional com suporte a VLP e NEON). 

5. Unidade de carga e armazenamento ( \oadlstore ). 


Instrugoes de desvio condicional tambem sao processadas no primeiro estagio Ex e sua diregao (desvio/sem 
desvio) e determinada. No caso de um erro de previsao, um sinal e enviado de volta ao estagio Fel e o pipeline 
e anulado. 

Depois de concluir sua execugao, as instrugoes entram no estagio WB (WriteBack), onde cada uma atualiza 
de imediato o arquivo de registrador flsico. Depois, quando a instrugao e a mais antiga em andamento, ela gravara 
o resultado do seu registrador no arquivo arquitetonico de registradores. Se houver uma interrupgao, sao esses 
valores, e nao os dos registradores flsicos, que se tornam vislveis. O ato de armazenar o registrador no arquivo 
arquitetonico e equivalente a retirada no Core i7. Alem disso, no estagio WB, quaisquer instrugoes de armazena¬ 
mento agora completam a escrita de seus resultados na cache de dados LI. 

Essa descrigao do Cortex A9 esta longe de ser completa, mas deve dar uma ideia razoavel de como ele fun- 
ciona e de quais sao as diferengas entre sua microarquitetura e a do Core i7. 


4.6.3 A microarquitetura do microcontrolador ATmegal 68 

Nosso ultimo exemplo de uma microarquitetura e a da Atmel ATmegal68, mostrada na Ligura 4.50. Essa 
microarquitetura e bem mais simples do que as do Core i7 e do OMAP4430. A razao para essa simplicidade e 
que o chip e muito pequeno e barato para atender ao mercado de projetos embutidos. Dessa forma, o objetivo 
principal era fazer um chip barato, nao rapido. Barato e simples sao bons amigos; barato e rapido, nao. 

O coragao do ATmegal68 e o barramento principal de 8 bits. Ligado a ele estao varios registradores e bits de 
estado, ULA, memoria e dispositivos de E/S. Vamos descreve-los brevemente agora. O arquivo de registradores 
contem 32 registradores de 8 bits, que sao usados para armazenar valores temporarios do programa. O registrador 
de estado e controle mantem os codigos de condigao da ultima operagao da ULA (ou seja, sinal, excesso, negati- 
vo, zero e vai-um), mais um bit que indica se uma interrupgao esta pendente. O contador de programa mantem 
o enderego da instrugao em execugao. Para realizar uma operagao na ULA, primeiro os operandos sao lidos do 
registrador e enviados a ULA. A salda da ULA pode ser escrita em qualquer um dos registradores passlveis de 
escrita por meio do barramento principal. 

O ATmegal68 tern diversas memorias para dados e instrugoes. A SRAM de dados tern 1 KB, muito grande 
para ser totalmente enderegada com um enderego de 8 bits no barramento principal. Assim, a arquitetura AVR 
permite que os enderegos sejam construldos com um par sequencial de registradores de 8 bits, produzindo assim 
um enderego de 16 bits que admite ate 64 KB de memoria de dados. A EEPROM oferece ate 1 KB de armazena¬ 
mento nao volatil, onde os programas podem escrever variaveis que precisam sobreviver a uma falta de energia. 

Existe um mecanismo semelhante para enderegar a memoria do programa, mas 64 KB de codigo e muito 
pouco, ate mesmo para sistemas embutidos, de baixo custo. Para permitir que mais memoria de instrugoes seja 
enderegada, a arquitetura AVR define tres registradores de pagina de RAM (RAMPX, RAMPY e RAMPZ), cada 
um com 8 bits de largura. O registrador de pagina de RAM e concatenado com um par de registradores de 16 bits 
para produzir um enderego de programa de 24 bits, permitindo assim 16 MB de espago de enderego de instrugoes. 
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Figura 4.50 


Microarquitetura do ATmegal 68. 



Para e pense nisso por um instante. 64 KB de codigo e muito pouco para um microcontrolador que poderia 
controlar um brinquedo ou um pequeno aparelho. Em 1964, a IBM langou o System 360 Model 30, que tinha 
64 KB de memoria total (sem truques para aumenta-la). Ele era vendido por US$ 250 mil, que e cerca de US$ 
2 milhoes em dolares de hoje. O ATmegal68 custa cerca de US$ 1, ou menos se voce comprar em quantidade. 
Se voce verificar, digamos, o custo de venda de um Boeing, vera que os pregos de aeronaves nao calram por um 
fator de 250.000 nos ultimos 50 anos ou mais. E nem os valores de carros ou televisores, ou qualquer outra coisa, 
exceto computadores. 

Alem disso, o ATmegal68 tern um controlador de interrupgao no chip, interface de porta serial (SPI) e tem- 
porizadores, que sao essenciais para aplicagoes de tempo real. Ha tambem tres portas de E/S digitais de 8 bits, 
que lhe permitem controlar ate 24 botoes externos, luzes, sensores, acionadores e assim por diante. E a presenga 
dos temporizadores e portas de E/S, mais do que qualquer outra coisa, que possibilita o uso do ATmegal68 para 
aplicagoes embutidas sem quaisquer chips adicionais. 

O ATmegal68 e um processador slncrono, com a maior parte das instrugoes usando apenas um ciclo de 
clock , embora algumas usem mais. O processador e paralelo, de modo que, enquanto uma instrugao esta sendo 
buscada, a anterior esta sendo executada. Entretanto, o pipeline tern apenas dois estagios, busca e execugao. Para 
executar instrugoes em um ciclo, o ciclo de clock deve acomodar a leitura do registrador do arquivo de regis- 
tradores, seguida pela execugao da instrugao na ULA, seguida pela escrita do registrador de volta ao arquivo de 
registradores. Como todas essas operagoes ocorrem em um ciclo de clock , nao e preciso de logica de contorno 
( bypass ) ou detecgao de protelagao (stall). As instrugoes do programa sao executadas em ordem, em um ciclo, e 
sem sobreposigao com outras instrugoes. 

Embora pudessemos entrar em mais detalhes sobre o ATmegal68, a descrigao que demos e a Figura 4.50 
oferecem uma ideia basica. O ATmegal68 tern um unico barramento principal (para reduzir a area do chip), 
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um conjunto heterogeneo de registradores e uma serie de memorias e dispositivos de E/S pendurados no bar- 
ramento principal. A cada ciclo do caminho de dados, dois operandos sao lidos do arquivo de registradores e 
passam pela ULA, com os resultados enviados de volta a um registrador, assim como nos computadores mais 
modernos. 


4.7 Comparacao entre \ 1 , OMAP4430 e ATmegal 68 

Nossos tres exemplos sao muito diferentes, porem, ainda assim exibem certa dose de caracterlsticas em 
comum. O Core i7 tern um conjunto de instrugoes CISC antigo que os engenheiros da Intel adorariam jogar na 
Bala de Sao Francisco, caso isso nao violasse as leis antipoluigao das aguas da California. O OMAP4430 e um 
projeto RISC puro, com um conjunto de instrugoes enxuto e esperto. O ATmegal68 e um processador simples de 
8 bits para aplicagoes embutidas. Ainda assim, o coragao de cada um deles e um conjunto de registradores e uma 
ou mais ULAs que efetuam operagoes aritmeticas e booleanas simples em operandos de registradores. 

A despeito de suas obvias diferengas externas, o Core i7 e o OMAP4430 tern unidades de execugao bastante 
semelhantes. Ambas as unidades de execugao aceitam micro-operagoes que contem um opcode , dois registradores 
de origem e um registrador de destino. Ambos podem executar uma micro-operagao em um ciclo. Ambos tern alto 
grau de pipelining, previsao de desvio e caches de instrugoes (I) e de dados (D) divididas. 

Essa semelhanga interna nao e um acidente ou nem mesmo causada pela eterna rotatividade de empregos 
dos engenheiros do Vale do Sillcio. Como vimos em nossos exemplos de Mic-3 e Mic-4, e facil e natural construir 
um caminho de dados com pipeline que pega dois registradores de origem, passa-os por uma ULA e armazena os 
resultados em um registrador. A Figura 4.34 mostra esse pipeline graficamente. Com a tecnologia atual, esse e o 
projeto mais eficaz. 

A principal diferenga entre as CPUs Core i7 e OMAP4430 e o modo como elas vao de seu conjunto de 
instrugao ISA ate a unidade de execugao. O Core i7 tern de fragmentar suas instrugoes CISC para coloca-las no 
formato de tres registradores de que a unidade de execugao necessita. E isso que faz o terminal frontal na Figura 
4.47 - desmembra instrugoes grandes em micro-operagoes caprichadas e jeitosas. O OMAP4430 nao tern de fazer 
nada porque suas instrugoes nativas ja sao micro-operagoes caprichadas e jeitosas. E por isso que grande parte 
das novas ISAs sao do tipo RISC - para oferecer melhor compatibilidade entre o conjunto de instrugoes ISA e o 
mecanismo interno de execugao. 

E instrutivo comparar nosso projeto final, a Mic-4, com esses dois exemplos do mundo real. A Mic-4 e muito 
parecida com o Core i7. A tarefa de ambos e interpretar um conjunto de instrugao ISA que nao e RISC. Ambos 
fazem isso desmembrando as instrugoes ISA em micro-operagoes com um opcode , dois registradores de origem e 
um de destino. Em ambos os casos, as micro-operagoes sao depositadas em uma fila para execugao mais tarde. A 
polltica estrita do projeto da Mic-4 preve emissao, execugao, retirada em ordem, ao passo que o Core i7 tern uma 
polltica de emissao em ordem, execugao fora de ordem, retirada em ordem. 

Na realidade, Mic-4 e OMAP4430 nao podem ser comparados, porque o conjunto de instrugoes ISA do 
OMAP4430 e composto de instrugoes RISC (isto e, micro-operagoes de tres registradores). Essas instrugoes nao tern 
de ser desmembradas e podem ser executadas como se apresentam, cada uma em um unico ciclo de caminho de dados. 

Em comparagao com Core i7 e OMAP4430, o ATmegal68 e realmente uma maquina simples. Tende mais 
para RISC do que para CISC porque grande parte de suas instrugoes simples pode ser executada em um ciclo de 
clock e nao precisa ser desmembrada. Ele nao tern pipelining, nem cache, e tern emissao, execugao e retirada em 
ordem. Em sua simplicidade, e muito mais semelhante a Mic-1. 


4.8 Resumo 

O coragao de todo computador e o caminho de dados. Ele contem alguns registradores, um, dois ou tres bar- 
ramentos e uma ou mais unidades funcionais, como ULAs e deslocadores. O lago de execugao principal consiste 
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em buscar alguns operandos em registradores e envia-los pelos barramentos a ULA e a outras unidades funcionais 
para execugao. Entao, os resultados sao armazenados de volta nos registradores. 

O caminho de dados pode ser controlado por um sequenciador que busca microinstrugoes em um armazena- 
mento de controle. Cada microinstrugao contem bits que controlam o caminho de dados por um ciclo. Esses bits 
especificam quais operandos selecionar, qual operagao executar e o que fazer com os resultados. Alem disso, cada 
microinstrugao especifica sua sucessora, em geral explicitamente por conter seu enderego. Algumas microinstru¬ 
goes modificam esse enderego de base efetuando operagoes OR com bits no enderego antes de usa-lo. 

A maquina IJVM e uma maquina de pilha com opcodes de 1 byte que passam palavras para a pilha, retiram- 
-nas da pilha e combinam palavras (por exemplo, somando-as) na pilha. Uma execugao microprogramada foi 
dada a microarquitetura Mic-1. Adicionando uma unidade de busca de instrugao para carregar os bytes antecipa- 
damente no fluxo de instrugoes, foi posslvel eliminar muitas references ao contador de programa e a maquina 
ficou muito mais veloz. 

Ha muitas maneiras de projetar o nivel de microarquitetura. Existem muitos compromissos, incluindo proje- 
tos com dois barramentos e tres barramentos, campos de microinstrugao codificados e nao codificados, presenga 
ou ausencia de busca antecipada, alto grau ou baixo grau de pipelining e muito mais. A Mic-1 e uma maquina 
simples, controlada por software, com execugao sequencial e nenhum paralelismo. Por comparagao, a Mic-4 e 
uma microarquitetura de alto grau de paralelismo com sete estagios de pipeline. 

O desempenho pode ser melhorado de varias maneiras, sendo que a memoria cache e uma das principais. 
Caches de mapeamento direto e caches associativas de conjunto costumam ser usadas para acelerar references a 
memoria. Previsao de desvio - estatica e dinamica - e importante, assim como execugao fora de ordem e execugao 
especulativa. 

Nossas tres maquinas de exemplo - Core i7, OMAP4430 e ATmegal68 - tern, todas, microarquiteturas que 
nao sao visiveis aos programadores de linguagem de montagem ISA. O Core i7 tern um esquema complexo para 
converter instrugoes ISA em micro-operagoes, coloca-las em cache e alimenta-las em um nucleo RISC superescalar 
para execugao fora de ordem, renomeagao de registradores e todos os truques do repertorio para extrair a ultima 
gota posslvel de velocidade do hardware. O OMAP4430 tern alto grau de pipelining, porem, no mais, e relativamente 
simples, com emissao em ordem, execugao em ordem e retirada em ordem. O ATmegal68 e muito simples, com um 
unico barramento principal direto, ao qual estao ligados um punhado de registradores e uma ULA. 


Problemas 


1. Quais sao as quatro etapas que as CPUs utilizam para 
executar instrugoes? 

2. Na Figura 4.6, o registrador do barramento B esta 
codificado em um campo de 4 bits, mas o barramento 
C e representado com um mapa de bits. Por que? 

3. Na Figura 4.6, ha um retangulo denominado “bit 
alto”. Apresente um diagrama de circuito para ele. 

4. Quando o campo JMPC em uma microinstrugao 
e desabilitado, e efetuada uma operagao OR entre 
MBR e NEXT_ADDRESS para formar o enderego da 
proxima microinstrugao. Ha alguma circunstancia na 
qual faz sentido que NEXT_ADDRESS seja Ox IFF e 
use JMPC? 

5. Suponha que no exemplo da Figura 4.14(a) a decla- 
ragao 

k = 5; 


e adicionada apos a declaragao if. Qual seria o novo 
codigo de montagem? Considere que o compilador e 
um compilador otimizador. 

6. De duas tradugoes IJVM diferentes para a seguinte 
declaragao Java: 

i = k + n + 5; 

7. De a declaragao Java que produziu o seguinte codigo 
IJVM: 

I LOADj 
I LOAD n 
ISUB 

BIPUSH 7 
ISUB 
DUP 
IADD 
ISTORE i 
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8. No texto, mencionamos que, quando traduzimos a 
declaragao 

if (Z) goto LI; else goto L2 

para binario, L2 tem de estar nas ultimas 256 pala- 
vras do armazenamento de controle. Nao seria igual- 
mente posslvel que LI estivesse em, por exemplo, 
0x40 e L2, em 0x140? Explique sua resposta. 

9. No microprograma para Mic-1, em if_icmpeq3, MDR 
e copiado para H. Algumas linhas mais adiante ele e 
subtraldo de TOS para verificar a igualdade. Com 
certeza seria melhor ter aqui uma declaragao: 

if_icmpeq3 Z = TOS - MDR; rd 

Por que isso nao e feito? 

10. Quanto tempo leva uma Mic-1 de 2,5 GHz para exe- 
cutar a seguinte declaragao Java: 

i = j + k; 

De sua resposta em nanossegundos. 

11. Repita a pergunta anterior, agora para uma Mic-2 
de 2,5 GHz. Com base nesse calculo, quanto tempo 
um programa que executa durante 100 s na Mic-1 
demoraria na Mic-2? 

12. Escreva um microcodigo para a Mic-1 a fim de 
executar a instrugao JVM POPTWO. Essa instrugao 
retira duas palavras do topo da pilha. 

13. Na maquina JVM completa, ha opcodes especiais de 
1 byte para armazenar de 0 ate 3 locais na pilha em 
vez de usar a instrugao geral I LOAD. Como a IJVM 
deve ser modificada para fazer o melhor uso dessas 
instrugoes? 

14. A instrugao ISHR (deslocamento aritmetico de intei- 
ro para a direita) existe em JVM, mas nao em IJVM. 
Ela usa os dois valores do topo da pilha, substituin- 
do-os por um valor unico, o resultado. A segunda 
palavra a partir do topo de uma pilha e o operando a 
ser deslocado. Seu conteudo e deslocado para a direi¬ 
ta por um valor entre 0 e 31, inclusive, dependendo 
do valor dos 5 bits menos significativos da palavra que 
esta no topo da pilha (os outros 27 da palavra do 
topo sao ignorados). O bit de sinal e duplicado para 
a direita por tantos bits quanto for o inteiro de deslo¬ 
camento. O opcode para ISHR e 122 (0x7A). 

a. Qual e a operagao aritmetica equivalente ao deslo¬ 
camento para a esquerda por uma contagem de 2? 

b. Estenda o microcodigo para incluir essa instrugao 
como uma parte da IJVM. 

15. A instrugao ISHL (deslocamento de inteiro para a 
esquerda) existe em JVM, mas nao em IJVM. Ela usa os 
dois valores do topo da pilha, substituindo-os por um 
valor unico, o resultado. A segunda palavra a partir do 
topo da pilha e o operando a ser deslocado. Seu conteudo 
e deslocado para a esquerda por um valor entre 0 e 31, 


inclusive, dependendo do valor dos 5 bits menos signifi¬ 
cativos da palavra que esta no topo da pilha (os outros 27 
da palavra do topo sao ignorados). Zeros sao deslocados 
para a direita por tantos bits quanto for o inteiro de des¬ 
locamento. O opcode para ISHL e 120 (0x78). 

a. Qual e a operagao aritmetica equivalente ao deslo¬ 
camento para a esquerda por uma contagem de 2? 

b. Estenda o microcodigo para incluir essa instrugao 
como uma parte da IJVM. 

16. A instrugao JVM INVOKEVIRTUAL precisa saber 
quantos parametros ela tem. Por que? 

17. Execute a instrugao JVM DLOAD para a Mic-2. Ela 
tem um indice de 1 byte e passa a variavel local que 
esta nessa posigao para a pilha. Entao, ela tambem 
passa para a pilha a proxima palavra mais alta. 

18. Desenhe uma maquina de estado finito para a conta¬ 
gem de pontos no jogo de tenis. As regras do tenis sao 
as seguintes. Para ganhar, voce precisa de um minimo 
de quatro pontos e deve ter no minimo dois pontos a 
mais do que seu adversario. Comece com um estado 
(0, 0) que indica que nenhum ponto foi marcado 
ainda. Depois, adicione um estado (1, 0), que signi- 
fica que A marcou um ponto. Denomine A o arco de 
(0, 0) a (1, 0). Agora, adicione um estado (0, 1) que 
indica que B marcou um ponto e denomine B o arco 
de (0, 0). Continue adicionando estados e arcos ate 
que todos os estados possiveis tenham sido incluidos. 

19. Reconsidere o problema anterior. Ha quaisquer esta¬ 
dos que poderiam ser agrupados sem mudar o resul¬ 
tado de qualquer jogo? Caso a resposta seja positiva, 
quais sao equivalentes? 

20. Desenhe uma maquina de estado finito para previsao 
de desvio que seja mais persistente do que a Figura 
4.42. Ela deve alterar previsoes somente apos tres 
previsoes erradas consecutivas. 

21. O registrador de deslocamento da Figura 4.27 tem 
uma capacidade maxima de 6 bytes. Uma versao mais 
barata da IFU poderia ser construida com um regis¬ 
trador de deslocamento de 5 bytes? E de 4 bytes? 

22. Agora que ja estudamos IFUs mais baratas na per¬ 
gunta anterior, vamos examinar IFUs mais caras. 
Haveria alguma razao para termos nas IFUs mais 
caras um registrador de deslocamento muito maior, 
por exemplo, de 12 bytes? Justifique sua resposta. 

23. No microprograma para a Mic-2, o codigo para 
if_icmpeq6 vai para T quando Z e ajustado para 1. 
Contudo, o codigo emTeo mesmo que gotol . Seria 
possivel ir para gotol diretamente? Fazer isso deixa- 
ria a maquina mais rapida? 

24. Na Mic-4, a unidade de decodificagao mapeia o opco¬ 
de IJVM para o indice da ROM onde as micro-ope- 
ragoes correspondentes estao armazenadas. Parece 
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mais simples apenas omitir o estagio de decodifica- 
gao e alimentar o opcode IJVM diretamente no enfi- 
leiramento. Ela poderia usar o opcode IJVM como um 
indice para a ROM, do mesmo modo que faz a Mic-1. 
O que esta errado nesse piano? 

25. Por que os computadores sao equipados com varios 
nlveis de cache? Nao seria melhor apenas ter uma 
grande cache? 

26. Um computador tern uma cache de dois niveis. 
Suponha que 60% das references a memoria obtem 
presenga na cache de primeiro nivel, 35% na de 
segundo nivel, e 5% encontram ausencia da cache. 
Os tempos de acesso sao 5 ns, 15 ns e 60 ns, respec- 
tivamente, e os tempos para a cache de nivel 2 e para 
a memoria comegam a ser contados no momento em 
que elas sabem que sao necessarios (por exemplo, 
o acesso a cache de nivel 2 nem mesmo inicia ate 
ocorrer uma ausencia da de nivel 1). Qual e o tempo 
medio de acesso? 

27. No final da Segao 4.5.1, dissemos que uma alocagao de 
escrita vence somente se houver possibilidade de varias 
escritas sequenciais para a mesma linha de cache. E o 
caso de uma escrita seguida por varias leituras - tam- 
bem nao seria um grande vencedor? 

28. No primeiro rascunho deste livro, a Figura 4.39 
mostrava uma cache associativa de tres vias em 
vez de uma de quatro vias. Um dos revisores teve 
um ataque de nervos dizendo que isso provocaria 
uma terrivel confusao para os estudantes porque 3 
nao e uma potencia de 2 e os computadores fazem 
tudo em binario. Uma vez que o cliente sempre tern 
razao, a figura foi alterada para uma cache associa¬ 


tiva de quatro vias. O revisor tinha razao? Discuta 
sua resposta. 

29. Muitos arquitetos de computador gastam muito tempo 
tornando seu pipeline mais profundo. Por que? 

30. Um computador com pipeline de cinco estagios trata 
dos desvios condicionais protelando durante os tres 
ciclos seguintes apos chegar a um desses desvios. 
Qual seria o prejuizo causado por essa protelagao se 
20% de todas as instrugoes forem desvios condicio¬ 
nais? Ignore todas as fontes de protelagao, exceto os 
desvios condicionais. 

31. Suponha que um computador faz busca antecipada 
de ate 20 instrugoes. Todavia, na media, quatro delas 
sao desvios condicionais, cada um com probabilidade 
de 90% de previsao correta. Qual e a probabilidade de 
a busca antecipada estar no caminho certo? 

32. Suponha que temos de alterar o projeto da maquina 
usada na Figura 4.43 para ter 16 registradores em vez 
de 8. Entao, trocamos 16 para usar R8 como seu des- 
tino. O que acontece nos ciclos a partir do ciclo 6? 

33. Dependences em geral causam problemas em CPUs 
com pipeline. Ha alguma otimizagao que possa ser 
feita com dependences WAW que poderia realmente 
melhorar a situagao? Qual? 

34. Reescreva o interpretador Mic-1 mas agora com LV 
apontando para a primeira variavel local em vez de 
para o ponteiro de ligagao. 

35. Escreva um simulador para uma cache de mapeamen- 
to direto de uma via. Considere o numero de entradas 
e o tamanho da linha como parametros da simulagao. 
Faga alguns experimentos e escreva um relatorio sobre 
o que constatou. 





0 nivel de arquitetura do conjunto 
de instrucao 


E ste capltulo discute em detalhes o nivel da arquitetura do conjunto de instrugao (ISA - Instruction Set 
Architecture). Esse nivel esta posicionado entre o da microarquitetura e o do sistema operacional, como 
vimos na Figura 1.2. Historicamente, ele foi desenvolvido antes de quaisquer outros nlveis e, na verdade, 
na origem era o unico. Ate hoje, nao e raro ouvir esse nivel ser chamado de “a arquitetura” de uma maquina ou, 
as vezes (incorretamente), como a “linguagem de montagem”. 

O nivel ISA tem um significado especial que o torna importante para arquitetos de sistemas: e a interface 
entre o software e o hardware. Embora seja posslvel o hardware executar diretamente programas escritos em C, 
C++, Java ou alguma outra linguagem de alto nivel, isso nao seria uma boa ideia. A vantagem em desempenho 
da compilagao em relagao a interpretagao seria perdida. Alem do mais, para ter muita utilidade pratica, a maioria 
dos computadores deve ser capaz de executar programas escritos em varias linguagens, e nao apenas em uma. 

A abordagem de base adotada por todos os projetistas de sistemas e traduzir programas escritos em varias lingua¬ 
gens de alto nivel para uma forma intermediaria comum - nivel ISA - e construir hardware que possa executar pro¬ 
gramas diretamente no nivel ISA. O nivel ISA define a interface entre os compiladores e o hardware. E a linguagem 
que ambos tem de entender. A relagao entre os compiladores, o nivel ISA e o hardware pode ser vista na Figura 5.1. 

O ideal e que, ao projetar uma nova maquina, os arquitetos conversem com os escritores de compiladores e 
tambem com os engenheiros de hardware para descobrir quais caracteristicas cada um deles quer no nivel ISA. Se os 
escritores de compiladores quiserem alguma caracteristica que os engenheiros nao podem realizar de modo eficiente 
em custo (por exemplo, uma instrugao desvie-e-processe-folha-de-pagamento), ela nao entra no hardware. Da mesma 
forma, se a turma do hardware tiver alguma nova caracteristica elegante que quer acrescentar (por exemplo, uma 
memoria na qual as palavras cujos enderegos sao numeros primos sejam super-rapidas), mas a turma do software nao 
consegue imaginar como gerar codigo para usa-la, ela nao passara da prancheta. Apos muita negociagao e simulagao, 
surgira uma ISA perfeitamente otimizada para as linguagens de programagao pretendidas, que sera implementada. 
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Figura 5.1 


0 nivel ISA e a interface entre os compiladores e o hardware. 



Isso e a teoria. Agora, vamos a triste realidade. Quando surge uma nova maquina, a primeira pergunta que 
todos os clientes potenciais fazem e: “Ela e compatlvel com sua antecessora?”. A segunda e: “Ela pode executar meu 
sistema operacional antigo?”. A terceira e: “Ela executara todos os meus programas de aplicagao existentes sem 
modificagao?”. Se qualquer uma das respostas a essas perguntas for “nao”, os projetistas terao muitas explicagoes 
a dar. E raro que os clientes se disponham a jogar fora todos os seus programas antigos e comegar tudo de novo. 

Essa atitude pressiona muito os arquitetos de computadores a manter a mesma ISA entre modelos, ou ao 
menos torna-la compatlvel com os modelos anteriores. Com isso, queremos dizer que a nova maquina deve ser 
capaz de executar programas antigos sem alteragao. Contudo, e totalmente aceitavel que a nova maquina tenha 
novas instrugoes e outras caracterlsticas que so possam ser exploradas por novo software. Em termos da Figura 
5.1, contanto que os projetistas garantam que a ISA seja compatlvel com os modelos anteriores, eles tern toda 
a liberdade para fazer o que quiserem com o hardware porque, na verdade, quase ninguem se importa muito com 
o hardware real (ou nem mesmo sabe o que ele faz). Eles podem passar de um projeto microprogramado para exe- 
cugao direta, ou adicionar paralelismo ou facilidades superescalares ou qualquer outra coisa que queiram, contanto 
que mantenham a compatibilidade com a ISA anterior. A meta e garantir que velhos programas sejam executados 
na nova maquina. Entao, o desafio se torna construir maquinas melhores sujeitas as restrigoes de compatibilidade. 

O que acabamos de dizer nao tern a intengao de dar a entender que o projeto da ISA nao importa. Uma boa 
ISA tern vantagens significativas em relagao a uma ruim, em particular quando se trata de comparar capacidade 
computacional bruta com custo. Se quanto ao mais os projetos forem equivalentes, as ISAs podem ser responsaveis 
por uma diferenga de ate 25% em desempenho. O que queremos deixar claro e que as for gas do mercado dificultam 
(mas nao impossibilitam) descartar uma ISA antiga e introduzir uma nova. Nao obstante, de vez em quando surge 
uma nova ISA de uso geral e, em mercados especializados (por exemplo, sistemas embutidos ou processadores 
multimldia), elas ocorrem com muito mais frequencia. Por conseguinte, e importante entender o projeto da ISA. 

O que faz uma ISA ser boa? Ha dois fatores primordiais. Primeiro, ela deve definir um conjunto de instrugoes 
que pode ser executado com eficiencia em tecnologias atuais e futuras, resultando em projetos efetivos em custo 
por varias geragoes. Um mau projeto e mais dificil de realizar e pode exigir um numero muito maior de portas 
para implementar um processador e mais memoria para executar programas. Alem disso, a execugao pode ser 
mais lenta porque a ISA encobre oportunidades de sobrepor operagoes, exigindo projetos muito mais sofisticados 
para obter desempenho equivalente. Um projeto que aproveita as peculiaridades de determinada tecnologia pode 
ter um exito fugaz e produzir uma unica geragao de implementagoes com custo eficaz e entao ser ultrapassado 
por ISAs mais avangadas. 

Segundo, uma boa ISA deve fornecer um alvo claro para o codigo compilado. Regularidade e completude de 
uma faixa de opgoes sao aspectos importantes que nem sempre estao presentes em uma ISA. Essas propriedades 
sao importantes para um compilador, que pode ter problemas para escolher a melhor opgao entre alternativas 
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limitadas, em particular quando algumas alternativas que parecem obvias nao sao permitidas pela ISA. Em resu¬ 
mo, uma vez que a ISA e a interface entre hardware e software, ela tern de contentar os projetistas de hardware 
(facil de implementar com eficiencia) e satisfazer os projetistas de software (facil de gerar bom codigo para ela). 


5.1 Visao geral do nivel ISA 

Vamos comegar nosso estudo do nivel ISA perguntando o que ele e. Essa pergunta pode parecer simples, mas 
e mais complicada do que poderlamos imaginar a primeira vista. Na segao seguinte, abordaremos algumas dessas 
questoes. Em seguida, vamos examinar modelos de memoria, registradores e instrugoes. 

5.1.1 Propriedades do nivel ISA 

Em princlpio, o nivel ISA e definido pelo modo como a maquina se apresenta a um programador de lingua- 
gem de maquina. Ja que mais ninguem (normal) faz muita programagao em linguagem de maquina, vamos rede- 
finir isso dizendo que codigo de nivel ISA e o que um compilador produz (ignorando, por enquanto, chamadas 
ao sistema operacional e a linguagem de montagem simbolica). Para produzir codigo de nivel ISA, o escritor de 
compilador tern de saber qual e o modelo de memoria, quais e quantos sao os registradores, quais tipos de dados 
e instrugoes estao disponiveis, e assim por diante. O conjunto de todas essas informagoes define o nivel ISA. 

De acordo com essa definigao, questoes como se a microarquitetura e microprogramada ou nao, se ela tern 
paralelismo ou nao, se ela e superescalar ou nao, e assim por diante, nao fazem parte do nivel ISA, porque nao 
sao visiveis para o escritor de compilador. Todavia, essa observagao nao e de todo verdadeira, porque algumas 
dessas propriedades afetam o desempenho e isso e visivel para o escritor do compilador. Considere, por exem- 
plo, um projeto superescalar que pode emitir instrugoes uma atras da outra no mesmo ciclo, contanto que uma 
seja uma instrugao de numero inteiro e outra de ponto flutuante. Se o compilador alternar instrugoes de numero 
inteiro e instrugoes de numero de ponto flutuante, obtera desempenho visivelmente melhor do que se nao fizer 
isso. Assim, os detalhes da operagao superescalar sao visiveis no nivel ISA, portanto, a separagao entre as cama- 
das nao e tao clara como poderia parecer de inicio. 

Para algumas arquiteturas, o nivel ISA e especificado por um documento formal de definigao, muitas vezes pro- 
duzido por um consorcio do setor. Para outras, nao. Por exemplo, a ARM v7 (ISA ARM versao 7) tern uma definigao 
oficial publicada pela ARM Ltd. A finalidade de um documento de definigao e possibilitar que diferentes realizadores 
construam a maquina e todas elas executem exatamente o mesmo software e obtenham resultados identicos. 

No caso da ISA ARM, a ideia e permitir que varios fabricantes de chips produzam chips ARM identicos em 
termos funcionais, e diferentes apenas em desempenho e prego. Para essa ideia dar certo, os fabricantes tern de 
saber o que um chip ARM deve fazer (no nivel ISA). Por conseguinte, o documento de definigao informa qual e 
o modelo da memoria, quais registradores estao presentes, o que as instrugoes fazem e assim por diante, mas nao 
qual e o aspecto da microarquitetura. 

Esses documentos de definigao contem segoes normativas, que impoem requisitos, e segoes informativas, 
cuja intengao e ajudar o lei tor, mas nao fazem parte da definigao formal. As segoes normativas usam com fre¬ 
quence palavras como deve, nao pode e deveria para requerer, proibir e sugerir aspectos da arquitetura, respecti- 
vamente. Por exemplo, uma sentenga como 

Executor um opcode reservado devera causar uma excegao. 

informa que, se um programa executar um opcode que nao e definido, ele deve causar uma excegao e nao pode 
ser apenas ignorado. Uma tecnica alternativa poderia ser deixar essa questao em aberto, quando entao a sentenga 
poderia ser 

O efeito da execuQdo de um opcode reservado e definido pela implementaQdo. 

Isso significa que o escritor do compilador nao pode contar com qualquer comportamento particular, o que da a dife¬ 
rentes implementadores a liberdade de opgoes diferentes. A maioria das especificagoes de arquitetura e acompanhada 
de conjuntos de testes para verificar se uma execugao que se afirma compatlvel com a especificagao realmente o e. 
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O motivo por que a ARM v7 tem um documento que define seu nivel ISA e claro: todos os chips ARM exe- 
cutarao o mesmo software. Por muitos anos, nao houve um documento de definigao formal para a ISA IA-32 (as 
vezes, denominada ISA x86), pois a Intel nao queria abrir a guarda para que outros fabricantes produzissem chips 
compatlveis com a Intel. Na verdade, a Intel ja apelou para a justiga para tentar impedir que outros fabricantes 
clonassem seus chips, mas perdeu a causa. Porem, no final da decada de 1990, a empresa langou uma especi- 
ficagao completa do conjunto de instrugoes IA-32. Talvez isso tenha acontecido porque eles sentiram o erro e 
quiseram ajudar os companheiros arquitetos e programadores, ou talvez porque os Estados Unidos, o Japao e a 
Europa estivessem investigando a Intel por suposta violagao das leis antitruste. Essa ISA bem documentada ainda 
esta sendo atuabzada no site para desenvolvedores (http://developer.intel.com). A versao langada com o Core i7 
da Intel possui 4.161 paginas, o que nos faz lembrar novamente que o Core i7 e um computador com conjunto 
complexo de instrugoes. 

Outra propriedade importante do nivel ISA e que, na maioria das maquinas, ha no mlnimo dois modos. 
O modo nucleo ( kernel ) deve executar o sistema operacional e permite que todas as instrugoes sejam exe- 
cutadas. O modo usuario (user) deve executar programas de aplicagao e nao permite que certas instrugoes 
senslveis (como as que manipulam a cache diretamente) sejam executadas. Neste capltulo, focalizaremos 
principalmente instrugoes e propriedades do modo usuario. 

5.1.2 Modelos de memoria 

Todos os computadores dividem a memoria em celulas que tem enderegos consecutivos. O tamanho de celula 
mais comum no momento e 8 bits, mas celulas de 1 bit a 60 bits ja foram usadas no passado (veja a Figura 2.10). 
Uma celula de 8 bits e denominada byte (ou octeto). A razao para usar bytes de 8 bits e que os caracteres ASCII 
tem 7 bits, de modo que um caractere ASCII (mais um bit de paridade muito pouco utilizado) se encaixa em um 
byte. Outros codigos, como Unicode e UTF-8, utilizam multiplos de 8 bits para representar caracteres. 

Em geral, os bytes sao agrupados em palavras de 4 bytes (32 bits) ou 8 bytes (64 bits) com instrugoes 
disponlveis para manipular palavras inteiras. Muitas arquiteturas precisam que as palavras sejam alinhadas em 
seus limites naturais; assim, por exemplo, uma palavra de 4 bytes pode comegar no enderego 0, 4, 8 etc., mas 
nao no enderego 1 ou 2. De modo semelhante, uma palavra de 8 bytes pode comegar no enderego 0, 8 ou 16, 
mas nao no enderego 4 ou 6. O alinhamento de palavras de 8 bytes e ilustrado na Figura 5.2. 


Figura 5.2 Palavra de 8 bytes em uma memoria little-endian, (a) Alinhada. (b) Nao alinhada. Algumas maquinas requerem que palavras 
na memoria sejam alinhadas. 
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O alinhamento costuma ser exigido porque memorias funcionam com mais eficiencia desse modo. O Core 
i7, por exemplo, que busca 8 bytes por vez na memoria, usa uma interface DDR3, que admite apenas acessos ali- 
nhados em 64 bits. Assim, o Core i7 nao poderia fazer uma referenda desalinhada a memoria nem que quisesse, 
porque a interface de memoria exige enderegos que sejam multiplos de 8. 
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Contudo, esse requisite* de alinhamento as vezes causa problemas. O Core i7 permite que programas ISA 
referenciem palavras que comegam em qualquer enderego, uma propriedade que remonta ao 8088, que tinha um 
barramento de dados de 1 byte de largura (e, assim, nenhum requisito de alinhamento de references a memoria 
em limites de 8 bytes). Se um programa Core i7 ler uma palavra de 4 bytes no enderego 7, o hardware tern de 
fazer uma reference a memoria para obter os bytes de 0 a 7 e uma segunda reference a memoria para obter os 
bytes de 8 a 15. Entao, a CPU tern de extrair os 4 bytes requisitados dos 16 bytes lidos da memoria e monta-los na 
ordem correta para formar uma palavra de 4 bytes. Fazer isso regularmente nao leva a uma velocidade fantastica. 

Ter a capacidade de ler palavras em enderegos arbitrarios requer logica extra no chip, o que o torna maior 
e mais caro. Os engenheiros projetistas adorariam livrar-se dela e apenas exigir que todos os programas fizessem 
references a memoria alinhadas por palavra. O problema e que, sempre que os engenheiros dizem “E quern se 
importa com executar programas 8088 antigos e bolorentos que referenciam a memoria de modo errado?”, o 
pessoal de marketing tern uma resposta curta e rapida: “Nossos clientes”. 

A maioria das maquinas tern um unico espago de enderego linear no nlvel ISA, que se estende do enderego 0 ate 
algum maximo, geralmente 2 32 - 1 bytes ou 2 64 - 1 bytes. Contudo, algumas tern espagos de enderegos separados 
para instrugoes e dados, de modo que uma busca de instrugao no enderego 8 vai para um espago de enderego 
diferente de uma busca de dados no enderego 8. Esse esquema e mais complexo do que ter um unico espago 
de enderego, mas tern duas vantagens. Primeiro, torna-se posslvel ter 2 32 bytes de programa e 2 32 bytes adicio- 
nais de dados usando apenas enderegos de 32 bits. Segundo, como todas as escritas vao automaticamente para 
o espago de dados, fica imposslvel sobrescrever por acidente o programa, eliminando assim uma fonte de bugs 
de programas. Separar espagos de instrugao e dados tambem torna os ataques por malware muito mais diflceis de 
serem bem-sucedidos, pois ele nao pode alterar o programa - nao consegue sequer enderega-lo. 

Observe que ter um espago de enderegos separado para instrugoes e dados nao e o mesmo que ter uma cache 
de nlvel 1 dividida. No primeiro caso, a quantidade total de espago de enderego e duplicada e leituras de qualquer 
enderego dao resultados diferentes, dependendo de a leitura ser de uma instrugao ou de uma palavra de dados. 
Com uma cache dividida, ainda ha apenas um espago de enderego, so que caches diferentes armazenam partes 
diferentes desse espago. 

Ainda outro aspecto do modelo de memoria de nlvel ISA e a semantica da memoria. E muito natural esperar 
que uma instrugao LOAD que ocorre apos uma instrugao STORE, e que referencia o mesmo enderego, retornara o 
valor que acabou de ser armazenado. Todavia, como vimos no Capltulo 4, em muitos projetos, as microinstrugoes 
sao reordenadas. Assim, ha um perigo real de que a memoria nao tera o comportamento esperado. O problema 
fica ainda pior em um multiprocessador, no qual cada uma das varias CPUs envia uma sequencia de requisigoes 
de escrita e leitura (talvez reordenadas) a uma memoria compartilhada. 

Projetistas de sistemas podem ado tar qualquer uma de diversas tecnicas para resolver esse problema. Em 
um extremo, todas as requisigoes de memoria podem ser serializadas, portanto, cada uma e conclulda antes de a 
proxima ser emitida. Essa estrategia prejudica o desempenho, mas resulta na semantica de memoria mais simples 
(todas as operagoes sao executadas estritamente na ordem do programa). 

No outro extremo, nao sao dadas garantias de especie alguma. Para forgar uma ordenagao na memoria, o 
programa deve executar uma instrugao SYNC, que bloqueia a emissao de todas as novas operagoes de memoria 
ate que todas as anteriores tenham sido concluldas. Esse esquema atribui uma grande carga aos compiladores, 
porque eles tern de entender, com detalhes, como a microarquitetura subjacente funciona, embora de aos proje¬ 
tistas de hardware a maxima liberdade para otimizar a utilizagao da memoria. 

Tambem sao posslveis modelos de memoria intermediarios, nos quais o hardware bloqueia automaticamente 
a emissao de certas references a memoria (por exemplo, as que envolvem uma dependencia RAW ou WAR), 
mas nao bloqueia outras. Embora seja um aborrecimento ter todas essas peculiaridades causadas pela micro¬ 
arquitetura expostas no nlvel ISA (ao menos para os escritores de compiladores e programadores em linguagem 
assembly), essa e a tendencia. Ela e causada pelas execugoes subjacentes, como reordenagao de microinstrugoes, 
paralelismo profundo, varios nlveis de cache e assim por diante. Veremos outros exemplos desses efeitos nao 
naturais adiante neste capltulo. 
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5.1.3 Registradores 

Todos os computadores tem alguns registradores vislveis no nivel ISA. Eles estao la para controlar a execugao 
do programa, reter resultados temporarios e para outras finalidades. Em geral, os registradores vislveis no nivel de 
microarquitetura, como TOS e MAR na Figura 4.1, nao o sao no nivel ISA. Contudo, alguns deles, como o contador 
de programa e o ponteiro de pilha, sao visiveis em ambos os niveis. Por outro lado, registradores vislveis no nivel 
ISA sao sempre vislveis no nivel da microarquitetura, ja que e ali que sao implementados. 

Registradores de nivel ISA podem ser divididos em duas categorias: de uso especial e de uso geral. Os de uso 
especial incluem coisas como o contador de programa e o ponteiro de pilha, bem como outros registradores com 
uma fungao especlfica. Ao contrario, os registradores de uso geral estao ali para conter as variaveis locais funda- 
mentais e resultados intermediaries de calculos. Sua fungao principal e prover acesso rapido a dados muito usados 
(basicamente evitando acessos a memoria). Maquinas RISC, com suas CPUs velozes e memorias (relativamente) len- 
tas, costumam ter ao menos 32 registradores de uso geral, e a tendencia em novos projetos de CPU e ter ainda mais. 

Em algumas maquinas, os registradores de uso geral sao completamente simetricos e intercambiaveis. Se os 
registradores forem todos equivalentes, um compilador pode usar R1 para reter um resultado temporario, mas 
tambem pode usar R25 da mesma forma. A escolha de registrador nao importa. 

Todavia, em outras maquinas, alguns dos registradores de uso geral podem ser um tanto especiais. Por exemplo, 
no Core i7 ha um registrador denominado EDX, que pode ser usado como registrador geral, mas que tambem recebe 
metade do produto em uma multiplicagao e re tem metade do dividendo em uma divisao. 

Mesmo quando os registradores de uso geral sao completamente intercambiaveis, e comum que o sistema ope- 
racional ou compiladores ado tem convengoes sobre como eles sao usados. Por exemplo, alguns registradores podem 
conter parametros para procedimentos chamados e outros podem ser usados como transitorios. Se um compilador 
colocar uma variavel local importante em R1 e depois chamar um procedimento de biblioteca que pensa que R1 
e um registrador transitorio disponlvel para ele, quando o procedimento de biblioteca retornar, R1 podera conter 
lixo. Se houver convengoes em nivel de sistema sobre como os registradores devem ser usados, aconselhamos os 
compiladores e programadores em linguagem assembly a adota-las para evitar problemas. 

Alem dos registradores de nivel ISA vislveis aos programas do usuario, ha sempre uma grande quantidade 
de registradores de uso especial, disponlveis somente em modo nucleo. Eles controlam as varias caches, memoria, 
dispositivos de E/S e outros recursos de hardware da maquina. Sao usados apenas pelo sistema operacional, de 
modo que compiladores e usuarios nao precisam conhece-los. 

Um registrador de controle, que e algo como um hlbrido de nucleo/usuario, e o registrador de flags ou PSW 
(Program Status Word - palavra de estado do programa). Esse registrador contem varios bits diversos, necessa- 
rios pela CPU. Os mais importantes sao os codigos de condigao. Esses bits sao ajustados a cada ciclo da ULA e 
refletem o estado do resultado da operagao mais recente. Entre os bits de condigao tlpicos estao: 

N - Marcado quando o resultado foi Negativo. 

Z - Marcado quando o resultado foi Zero. 

V - Marcado quando o resultado causou um transbordo ( overflow ) 

C - Marcado quando o resultado causou um vai-um (Carry) do bit da extrema esquerda. 

A - Marcado quando houve um vai-um do bit 3 (vai-um Auxiliar - veja a seguir). 

P - Marcado quando o resultado teve Paridade par. 

Os codigos de condigao sao importantes porque as instrugoes de comparagao e desvio condicional (tambem 
denominadas instrugoes de salto condicional) os utilizam. Por exemplo, a instrugao CMP normalmente subtrai 
dois operandos e ajusta os codigos de condigao com base na diferenga. Se os operandos forem iguais, entao a dife- 
renga sera zero, e o bit de codigo de condigao Z no registrador PSW sera marcado. Uma instrugao BEQ (Branch 
EQual) subsequente testa o bit Z e desvia se ele estiver marcado. 
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O PSW contem mais do que apenas codigos de condigao, mas o conteudo total varia de uma maquina para 
outra. Campos adicionais tlpicos sao o modo da maquina (por exemplo, usuario ou nucleo), o bit de rastreamento 
(usado para depuragao), o nlvel de prioridade da CPU e o estado de habilitagao de interrupgao. Muitas vezes, o 
PSW pode ser lido em modo usuario, mas alguns dos campos so podem ser escritos em modo nucleo (por exemplo, 
o bit de modo usuario/nucleo). 

5.1.4 Instrucoes 

A principal caracterlstica do nlvel ISA e o seu conjunto de instrugoes de maquina, que controlam o que 
a maquina pode fazer. Ha sempre instrugoes LOAD e STORE (de uma forma ou de outra) para mover dados entre 
a memoria e registradores e instrugoes MOVE para copiar dados entre os registradores. Instrugoes aritmeticas estao 
sempre presentes, assim como instrugoes booleanas e aquelas para comparar itens de dados e desviar conforme os 
resultados. Ja vimos algumas instrugoes ISA tlpicas (veja a Figura 4.11) e estudaremos muitas mais neste capltulo. 

5.1.5 Visao geral do nlvel ISA do Core i7 

Neste capltulo, discutiremos tres ISAs muito diferentes: a IA-32 da Intel, incorporada no Core i7; a arquitetura 
ARM v7, executada no sistema-em-um-chip OMAP4430; e a arquitetura de 8 bits AVR, usada pelo microcontrolador 
ATmegal68. A intengao nao e dar uma descrigao exaustiva de quaisquer delas, mas demonstrar aspectos importan- 
tes de uma ISA e mostrar como esses aspectos podem variar de uma ISA para outra. Vamos comegar com o Core i7. 

O processador Core i7 evoluiu por muitas geragoes, e sua linhagem pode ser rastreada ate alguns dos mais 
antigos microprocessadores que ja foram construldos, como discutimos no Capltulo 1. Embora a ISA basica 
mantenha total suporte para execugao de programas escritos para os processadores 8086 e 8088 (que tinham a 
mesma ISA), tambem contem sobras do 8080, um processador de 8 bits popular na decada de 1970. O 8080, por 
sua vez, sofreu forte influencia das restrigoes de compatibilidade com o processador 8008, mais antigo ainda, que 
era baseado no 4004, um chip de 4 bits usado na epoca em que os dinossauros vagavam pela Terra. 

Do ponto de vista estrito do software, o 8086 e o 8088 eram maquinas normais de 16 bits (embora o 8088 
tivesse um barramento de dados de 8 bits). O sucessor deles, o 80286, tambem era uma maquina de 16 bits. Sua 
principal vantagem era um espago de enderego maior, embora poucos programas o usassem, ja que ele consistia 
em 16.384 segmentos de 64 KB, em vez de uma memoria linear de 2 30 bytes. 

O 80386 foi a primeira maquina de 32 bits da famllia Intel. Todas as que vieram depois dela (80486, Pentium, 
Pentium Pro, Pentium II, Pentium III, Pentium 4, Celeron, Xeon, Pentium M, Centrino, Core 2 duo, Core i7 etc.) 
tern na essencia a mesma arquitetura de 32 bits do 80386, denominada IA-32, e portanto e essa que focalizaremos 
aqui. A unica alteragao importante na arquitetura desde o 80386 foi a introdugao das instrugoes MMX, SSE e SSE2 
em versoes mais recentes da serie x86. Essas instrugoes tern alto grau de especializagao e foram projetadas para 
melhorar o desempenho em aplicagoes multimldia. Outra extensao importante foi o x86 de 64 bits (normalmente 
denominado x86-64), que aumentou os calculos de inteiros e o tamanho do enderego virtual para 64 bits. Embora 
quase todas as extensoes fossem introduzidas pela Intel e, mais tarde, executadas pelos concorrentes, esse foi um 
caso em que a AMD introduziu uma extensao que a Intel teve de adotar. 

O Core i7 tern tres modos de operagao, dois dos quais o fazem agir como um 8088. No modo real, todas as 
caracterlsticas que foram acrescentadas desde o 8088 sao desligadas e o Core i7 se comporta como um simples 
8088. Se algum programa fizer algo errado, a maquina inteira falha. Se a Intel tivesse projetado seres humanos, 
ela teria inserido um bit que os faria voltar ao modo chimpanze - grande parte do cerebro desativada, nao falaria, 
dormiria em arvores, comeria principalmente bananas etc. 

Um degrau acima e o modo virtual 8086, que possibilita executar antigos programas 8088 de modo prote- 
gido. Nesse modo, um sistema operacional real esta no controle de toda a maquina. Para executar um programa 
8088 antigo, o sistema operacional cria um ambiente isolado especial que age como um 8088, exceto que, se seu 
programa falhar, o sistema operacional e avisado, em vez de a maquina falhar. Quando um usuario do Windows 
inicia uma janela MS-DOS, o programa ali executado e iniciado em modo virtual 8086 para proteger o proprio 
Windows contra o mau comportamento de programas MS-DOS. 
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O modo final e o modo protegido, no qual o Core i7 age de fa to como um Core i7 em vez de um 8088 muito 
caro. Ha quatro nlveis de privilegio disponlveis, controlados por bits no PSW. O nivel 0 corresponde ao modo 
nucleo em outros computadores e tern acesso total a maquina. E usado pelo sistema operacional. O nivel 3 e para 
programas do usuario. Ele bloqueia o acesso a certas instrugoes criticas e controla registradores para impedir que 
um programa do usuario trapaceiro faga a maquina inteira falhar. Os niveis 1 e 2 pouco sao usados. 

O Core i7 tern um espago de enderego enorme, com memoria dividida em 16.384 segmentos, cada um indo do 
enderego 0 ao enderego 2 32 - 1. Contudo, a maioria dos sistemas operacionais (incluindo o UNIX e todas as versoes 
do Windows) aceita apenas um segmento; portanto, o que a maioria dos programas de aplicagao ve, na verdade, 
e um espago de enderego linear de 2 32 bytes e, as vezes, parte desse espago esta ocupado pelo sistema operacional. 
Todos os bytes no espago de enderego tern seu proprio enderego, sendo que as palavras tern 32 bits de comprimento. 
Palavras sao armazenadas em forma to little-endian (o byte menos significativo tern o enderego mais baixo). 

Os registradores do Core i7 sao mostrados na Figura 5.3. Os quatro primeiros, EAX, EBX, ECX e EDX, sao 
registradores de 32 bits, mais ou menos de uso geral, embora cada um tenha suas proprias peculiaridades. O 
EAX e o principal registrador aritmetico; o EBX e bom para conter ponteiros (enderegos de memoria); o ECX tern 
uma fungao na execugao de lagos; o EDX e necessario para multiplicagao e divisao e, junto com o EAX, retem 
produtos e dividendos de 64 bits. Cada um deles contem um registrador de 16 bits nos 16 bits de ordem baixa 
e um de 8 bits nos 8 bits de ordem baixa. Esses registradores facilitam a manipulagao de quantidades de 16 e 8 
bits, respectivamente. O 8088 e o 80286 tinham so os registradores de 8 e 16 bits. Os registradores de 32 bits 
foram adicionados com o 80386, junto com o prefixo E, que representa Extended (estendido). 


Figura 5.3 


Principals registradores do Core i7. 



EAX 

EBX 

ECX 

EDX 

ESI 

EDI 

EBP 

ESP 

CS 

SS 

DS 

ES 

FS 

GS 

EIP 

EFLAGS 



































278 


Organizacao estruturada de computadores 


Os quatro seguintes sao, de certa forma, de uso geral, porem, com mais peculiaridades. A tarefa dos regis- 
tradores ESI e EDI e conter ponteiros para a memoria, em especial para as instrugoes de manipulagao de cadeias 
por hardware, nas quais o ESI aponta para a cadeia de fonte e EDI aponta para a cadeia de destino. O registrador 
EBP tambem e um registrador de ponteiro. Ele e usado para apontar para a base do quadro de pilha corrente, o 
mesmo que LV na IJVM. Quando um registrador como EBP e usado para apontar para a base do quadro de pilha 
local, costuma ser denominado ponteiro de quadro. Por fim, ESP e o ponteiro de pilha. 

O proximo grupo de registradores, de CS ate GS, sao registradores de segmento. Ate certo ponto, eles sao trilo- 
bitas eletronicos, fosseis antigos que restaram de uma epoca em que o 8088 tentava enderegar 2 20 bytes de memoria 
usando enderegos de 16 bits. Basta dizer que, quando o Core i7 e ajustado para usar um unico espago de enderegos 
linear de 32 bits, eles podem ser ignorados sem problema algum. O seguinte e o EIP, que e o contador de programa 
(Extended Instruction Pointer - ponteiro de instrugao estendido). Por fim, chegamos ao EFLAGS, que e o PSW. 

5.1.6 Visao geral do nivel da ISA ARM do 0MAP4430 

A arquitetura ARM foi apresentada pela primeira vez em 1985 pela Acorn Computer. Era inspirada nas 
pesquisas realizadas em Berkeley na decada de 1980 (Patterson, 1985; Patterson e Sequin, 1982). A arquitetura 
ARM original (denominada ARM2) era uma arquitetura de 32 bits que aceitava um espago de enderego de 26 
bits. O OMAP4430 utiliza a microarquitetura ARM Cortex A9, que executa a versao 7 da ARM, e essa e a ISA que 
descreveremos neste capltulo. Para manter a coerencia com o resto do livro, aqui vamos nos referir a OMAP4430 
mas, no nivel ISA, todos os projetos baseados na ARM Cortex A9 implementam a mesma ISA. 

A estrutura de memoria do OMAP4430 e limpa e simples: a memoria enderegavel e um arranjo linear de 
2 32 bytes. Processadores ARM sao bi-endian , de modo que acessam a memoria com a ordem big-endian ou little- 
-endian. A escolha e feita com base em um bloco de memoria do sistema que e lido logo apos a inicializagao do 
processador. Para garantir que o bloco de memoria seja lido corretamente, ele deve estar no formato little-endian , 
mesmo que a maquina deva ser configurada para operagao em big-endian. 

E importante que a ISA tenha um limite maior do que as execugoes necessitam, porque e quase certo que 
futuras implementagoes precisarao aumentar o tamanho da memoria que o processador pode acessar. O espago de 
enderegos de 32 bits da ISA ARM esta dando muito trabalho a diversos projetistas, pois muitos sistemas baseados 
na ARM, como smartphones, ja tern mais de 2 32 bytes de memoria. Ate agora, os projetistas tern trabalhado em 
torno desses problemas tornando a maior parte da memoria um armazenamento de drive flash, que e acessado 
com uma interface de disco com suporte para um espago de enderegos maior, orientado a bloco. Para resolver 
essa limitagao com potencial para matar o mercado, a ARM (a empresa) publicou recentemente a definigao da 
ISA ARM versao 8, que aceita espagos de enderegos de 64 bits. 

Um dos problemas mais serios encontrados por arquiteturas bem-sucedidas e que suas ISAs limitavam a 
quantidade de memoria enderegavel. Na ciencia da computagao, o unico erro que nao pode ser contornado e nao 
ter bits suficientes. Um dia nossos netos nos perguntarao como, antigamente, os computadores conseguiam fazer 
algo tendo somente enderegos de 32 bits e apenas 4 GB de memoria real, quando um joguinho medio precisa de 
1 TB so para ser iniciado. 

A ISA ARM e limpa, embora a organizagao dos registradores seja um tanto complexa, em uma tentativa 
de simplificar algumas codificagoes de instrugao. A arquitetura mapeia o contador de programa para o arquivo de 
registradores de inteiros (como o registrador R15), pois isso permite que sejam criados desvios com operagoes 
da ULA que tenham R15 como registrador de destino. A experiencia tern mostrado que a organizagao de registra¬ 
dores nao vale o trabalho que da, mas aquela antiga regra de compatibilidade nao permite que nos livremos dela. 

A ISA ARM tern dois grupos de registradores: 16 de uso geral de 32 bits e 32 de ponto flutuante de 32 
bits (se houver suporte para o coprocessador VFP). Os registradores de uso geral sao denominados R0 ate R15, 
embora outros nomes sejam usados em certos contextos. Os nomes alternativos e as fungoes dos registradores 
sao mostrados na Figura 5.4. 
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Figura 5.4 Registradores gerais da ARM versao 7. 
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Todos os registradores gerais tem 32 bits de largura e podem ser lidos e escritos por diversas instrugoes de 
carga e armazenamento. Os usos atribuldos na Figura 5.4 sao baseados, em parte, na convengao, mas tambem, em 
parte, no modo como o hardware os trata. Em geral, nao e sensato nos desviarmos das utilizagoes relacionadas na 
figura, a menos que sejamos faixa preta em ARM e que realmente, mas realmente, saibamos o que estamos fazen- 
do. Cabe ao compilador ou programador a responsabilidade de garantir que o programa acesse os registradores 
de modo correto e efetue neles o tipo certo de aritmetica. Por exemplo, e muito facil carregar numeros de ponto 
flutuante nos registradores gerais e entao efetuar adigao de inteiros neles, uma operagao que produzira total e 
absoluto absurdo, mas que a CPU realizara com alegria se assim for instrulda. 

Os registrados Vx sao usados para reter constantes, variaveis e ponteiros que sao necessarios em procedi- 
mentos, embora possam ser armazenados e recarregados em entradas e saldas de procedimento, se for preciso. Os 
registradores Ax sao usados para passar parametros a procedimentos a fim de evitar references a memoria. Mais 
adiante, explicaremos como isso funciona. 

Quatro registradores dedicados sao usados para finalidades especiais. O registrador IP contorna as limitagoes 
da instrugao de chamada funcional da ARM (BL), que nao pode enderegar totalmente todos os seus 2 32 bytes de 
espago de enderegos. Se o destino de uma chamada estiver muito distante para que seja expresso pela instrugao, 
esta chamara um trecho de codigo “embutido”, que usa o enderego no registrador IP como destino da chamada 
de fungao. O registrador SP indica o topo da pilha atual e flutua a medida que as palavras sao colocadas na pilha 
ou retiradas dela. O terceiro registrador de uso especial e LR. Ele e usado para manter o enderego de retorno nas 
chamadas de procedimento. O quarto, como ja dissemos, e o contador de programa PC. Guardar um valor nesse 
registrador redireciona a busca de instrugoes para aquele enderego recem-depositado no PC. Outro registrador 
importante na arquitetura ARM e o de estado do programa (PSR), que mantem o estado dos calculos anteriores 
da ULA, incluindo Zero, Negativo e Transbordo, entre outros bits. 

A ISA ARM (quando configurada com o coprocessador VFP) tambem tem 32 registradores de ponto flutu¬ 
ante de 32 bits. Esses registradores podem ser acessados diretamente, como 32 valores de ponto flutuante com 
precisao simples, ou como 16 valores de ponto flutuante de 64 bits com precisao dupla. O tamanho do registrador 
de ponto flutuante acessado e determinado pela instrugao; em geral, todas as instrugoes ARM de ponto flutuante 
vem com variantes de precisao simples e dupla. 

A arquitetura ARM e uma arquitetura carregar/armazenar. Isto e, as unicas operagoes que acessam a memo¬ 
ria diretamente sao as instrugoes LOAD e STORE, para mover dados entre os registradores e a memoria. Todos 
os operandos para instrugoes aritmeticas e logicas devem vir de registradores, ou ser fornecidos pela instrugao (e 
nao pela memoria), e todos os resultados devem ser salvos em um registrador (e nao na memoria). 
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5.1.7 Visao geral do nivel ISA AVR do ATmegal68 

Nosso terceiro exemplo e o ATmegal68. Diferente do Core i7 (que e mais usado em maquinas de uso geral e 
conjuntos de servidores) e do OMAP4430 (que e usado principalmente em telefones, tablets e outros dispositivos 
moveis), o ATmegal68 e usado em sistemas embutidos de classe mais baixa, como sinais de transito e radios- 
-relogio, para controlar o dispositivo e gerenciar botoes ou teclas, luzes e outras partes da interface de usuario. 
Nesta segao, faremos uma breve introdugao tecnica a ISA AVR do ATmegal68. 

O ATmegal68 tern um unico modo e nenhuma protegao de hardware, ja que nunca executa programas 
multiplos que pertencem a usuarios potencialmente hostis. O modelo de memoria e de extrema simplicidade. Ha 
16 KB de memoria para programas e um segundo 1 KB de memoria para dados. Cada um tern seu proprio espago 
de enderegos, de modo que um enderego ira referenciar uma memoria diferente, dependendo se o acesso e para 
a memoria de programas ou dados. Os espagos de programa e dados sao separados, para possibilitar a execugao 
do espago de programa em memoria flash e o de dados em SRAM. 

Varias implementagoes diferentes de memoria sao posslveis, dependendo do quanto o projetista quer pagar 
pelo processador. Na mais simples, o ATmega48, ha uma memoria flash de 4 KB para o programa e uma SRAM 
de 512 bytes para dados. Ambas, flash e RAM, estao dentro do chip. Essa quantidade de memoria costuma ser 
suficiente para pequenas aplicagoes, e ter toda a memoria no chip da CPU representa uma grande vantagem. O 
ATmega88 tern duas vezes mais memoria em chip: 8 KB de ROM e 1 KB de SRAM. 

O ATmegal68 usa uma organizagao de memoria em duas camadas, oferecendo mais seguranga ao programa. 
A memoria flash para programas e dividida em uma segao de carregador de inicializagao e uma segao de aplicagao , 
com o tamanho de cada uma sendo determinado pelos bits de “fuslvel”, que sao programados uma vez quando o 
microcontrolador e ligado inicialmente. Por motivos de seguranga, somente o codigo executado pela segao de car¬ 
regador de inicializagao pode atualizar a memoria flash. Com esse recurso, qualquer codigo pode ser colocado na 
area de aplicagao (incluindo aplicagoes baixadas de terceiros), com a certeza de que ela nunca sujara outro codigo 
no sistema (pois o codigo da aplicagao estara rodando pelo espago da aplicagao, que nao pode escrever na memoria 
flash). Para amarrar de verdade um sistema, um fornecedor pode assinar o codigo digitalmente. Com codigo assina- 
do, o carregador de inicializagao carrega o codigo na memoria flash apenas se ele estiver assinado digitalmente por 
um fornecedor de software aprovado. Dessa forma, o sistema so rodara codigo que tenha sido “abengoado” por um 
fornecedor de software confiavel. A tecnica e bastante flexivel, pois ate mesmo o carregador de inicializagao pode 
ser substituldo, se o novo codigo tiver sido assinado digitalmente de forma apropriada. Isso e semelhante ao modo 
como Apple e TiVo garantem que o codigo rodando em seus dispositivos e seguro contra danos. 

O ATmegal68 contem 32 registradores de uso geral de 8 bits, que sao acessados por instrugoes por meio de 
um campo de 5 bits, especificando qual deles usar. Os registradores sao denominados R0 ate R31 . Uma proprie- 
dade peculiar dos registradores do ATmegal68 e que eles tambem estao presentes no espago de memoria. O byte 
0 do espago de dados e equivalente a R0 do conjunto de registradores 0. Quando uma instrugao muda R0 e mais 
tarde le o byte de memoria 0, ele encontra la o novo valor de R0. De modo semelhante, o byte 1 da memoria e 
R1, e assim por diante, ate o byte 31. O arranjo pode ser visto na Figura 5.5. 

Diretamente acima dos 32 registradores de uso geral, nos enderegos de memoria 32 a 95, existem 64 bytes 
de memoria reservados para acessar registradores de dispositivo de E/S, incluindo os dispositivos internos do 
sistema-em-um-chip. 

Alem dos quatro conjuntos de oito registradores, o ATmegal68 tern uma pequena quantidade de registrado¬ 
res de uso especial, cujos mais importantes aparecem na Figura 5.5. O registrador de estado (SREG) contem, da 
esquerda para a direita, o bit de habilitagao de interrupgao, o de carga/armazenamento, o bit auxiliar de vai-um, 
o bit de sinal, o de transbordo, o flag de negativo, o flag de zero e o bit de vai-um. Todos esses bits de estado, exceto 
o de habilitagao de interrupgao, sao marcados como resultado de operagoes aritmeticas. 

O bit I do registrador de estado permite que as interrupgoes sejam habilitadas ou desabilitadas de modo glo¬ 
bal. Se o bit I for 0, todas as interrupgoes sao desabilitadas. Limpar esse bit permite desabilitar quaisquer outras 
interrupgoes em uma unica instrugao. Marcar o bit permite que quaisquer interrupgoes atualmente pendentes 
sejam executadas, bem como as futuras. Cada dispositivo tern, associado a ele, um bit de habilitagao de interrup¬ 
gao. Se o bit de habilitagao do dispositivo estiver marcado e o bit I de habilitagao global de interrupgao estiver 
marcado, o dispositivo pode interromper o processador. 
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Figura 5.5 


Registrador no chip e organizacao de memoria do ATmegal 68. 
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O ponteiro de pilha SP mantem o enderego atual na memoria de dados onde as instrugoes PUSH e POP 
acessarao seus dados, semelhante a instrugao de mesmo nome na JVM da Java, do Capitulo 4. O ponteiro de pilha 
esta localizado na memoria de E/S, no enderego 80. Um unico byte de memoria com 8 bits e muito pequeno para 
enderegar 1.024 bytes da memoria de dados, de modo que o ponteiro de pilha e composto de dois locais conse- 
cutivos na memoria, formando um enderego de 16 bits. 


5.2 Tipos de dados 

Todos os computadores precisam de dados. Na verdade, ha muitos sistemas de computagao cujo unico 
proposito e processar dados financeiros, comerciais, cientlficos, de engenharia ou outros. Os dados tern de ser 
representados de alguma forma especlfica no interior do computador. No nivel ISA, sao usados varios tipos de 
dados diferentes, que serao explicados a seguir. 

Uma questao fundamental e se ha ou nao suporte de hardware para um tipo particular de dados. Suporte 
de hardware significa que uma ou mais instrugoes esperam dados em um formato particular e o usuario nao 
tern liberdade de escolher um diferente. Por exemplo, os contadores tern o habito peculiar de escrever numeros 
negativos com um sinal de menos a direita do numero em vez de a esquerda, onde os cientistas da computagao o 
colocam. Suponha que, em um esforgo de impressionar o patrao, o chefe do centro de computagao de um escri- 
torio de contabilidade altere todos os numeros, em todos os computadores, para usar o bit da extrema direita (e 
nao o da extrema esquerda) como o bit de sinal. Sem duvida, isso impressionaria muito o patrao - porque, de 
pronto, todo o software deixaria de funcionar corretamente. O hardware espera certo formato para inteiros e nao 
funciona direito quando recebe qualquer outra coisa. 

Agora, considere outro escritorio de contabilidade, que acabou de firmar um contrato para verificar a dlvida 
federal (quanto o governo dos Estados Unidos deve a todos os cidadaos). Usar aritmetica de 32 bits nao funcio- 
naria nesse caso, porque os numeros envolvidos sao maiores do que 2 32 (cerca de 4 bilhoes). Uma solugao e usar 
dois inteiros de 32 bits para representar cada numero, o que da 64 bits no total. Se a maquina nao suportar esse 
tipo de numero de dupla precisao, toda a aritmetica efetuada com eles teria de ser executada em software, mas 
as duas partes podem estar em qualquer ordem, ja que o hardware nao se importa. Esse e um exemplo de tipo 
de dados sem suporte de hardware e, por isso, sem uma determinada representagao requerida em hardware. Nas 
segoes seguintes, examinaremos tipos de dados suportados pelo hardware e, por conseguinte, dados para os quais 
sao exigidos formatos especlficos. 
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5.2.1 Tipos de dados numericos 

Os tipos de dados podem ser divididos em duas categorias: numericos e nao numericos. O principal entre 
os tipos de dados numericos sao os inteiros. Eles podem ter muitos comprimentos, em geral 8, 16, 32 e 64 bits. 
Inteiros contam coisas (por exemplo, o numero de chaves de fenda que uma loja de ferragens tern em estoque), 
identificam coisas (por exemplo, numeros de contas correntes) e muito mais. A maioria dos computadores 
modernos armazena inteiros em notagao binaria de complemento de dois, embora outros sistemas ja tenham sido 
usados no passado. Numeros binarios serao discutidos no Apendice A. 

Alguns computadores suportam inteiros sem sinal, bem como inteiros com sinal. No caso de um inteiro 
sem sinal, nao ha bit de sinal e todos os bits contem dados. Esse tipo de dado tern a vantagem de um bit extra, 
portanto, por exemplo, uma palavra de 32 bits pode conter um unico inteiro sem sinal na faixa de 0 a 2 32 - 1, 
inclusive. Ao contrario, um inteiro de 32 bits com sinal, representado por complemento de dois, so pode mani- 
pular numeros ate 2 31 - 1, mas, e claro, tambem pode manipular numeros negativos. 

Para numeros que nao podem ser expressos como um inteiro, como 3,5, sao usados numeros de ponto flu- 
tuante. Esses numeros serao discutidos no Apendice B. Eles tern comprimentos de 32, 64 ou, as vezes, 128 bits. 
A maioria dos computadores tern instrugoes para efetuar aritmetica de ponto flutuante. Muitos deles tern regis- 
tradores separados para conter operandos inteiros e para conter operandos de ponto flutuante. 

Algumas linguagens de programagao, em especial COBOL, permitem numeros decimais como um tipo de 
dado. Maquinas que querem ser amigaveis a linguagem COBOL costumam suportar numeros decimais em hard¬ 
ware, normalmente codificando um dlgito decimal em 4 bits e entao empacotando dois dlgitos decimais por byte 
(formato decimal em codigo binario). Todavia, a aritmetica binaria nao funciona direito em numeros decimais 
empacotados, portanto, sao necessarias instrugoes especiais de corregao de aritmetica decimal. Essas instrugoes 
precisam conhecer o vai-um do bit 3. E por essa razao que o codigo de condigao muitas vezes contem um bit 
auxiliar de vai-um. A proposito, o problema do Y2K (bug do ano 2000), tao comentado, foi causado por progra- 
madores COBOL que decidiram que poderiam representar o ano com dois dlgitos decimais (8 bits) em vez de 
quatro dlgitos decimais (ou um numero binario de 8 bits), que podem manter ainda mais valores (256) do que 
dois dlgitos decimais (100). Grande otimizagao! 

5.2.2 Tipos de dados nao numericos 

Embora quase todos os primeiros computadores ganhassem suas vidas triturando numeros, computadores 
modernos sao usados com frequencia para aplicagoes nao numericas, como e-mail, navegar pela Web, fotografia 
digital e criagao e reprodugao de multimldia. Para essas aplicagoes, sao necessarios outros tipos de dados, que 
muitas vezes sao suportados por instrugoes de nivel ISA. Nesse caso, e clara a importancia dos caracteres, embo¬ 
ra nem todos os computadores oferegam suporte de hardware para eles. Os codigos mais comuns sao ASCII e 
Unicode. Eles suportam caracteres de 7 bits e de 16 bits, respectivamente. Ambos foram discutidos no Capltulo 2. 

Nao e incomum que o nivel ISA tenha instrugoes especiais destinadas a manipular cadeias de caracteres, 
is to e, carreiras consecutivas de caracteres. Essas cadeias as vezes sao delimitadas por um caractere especial na 
extremidade. Como alternativa, um campo de comprimento de cadeia pode ser usado para monitorar essa extre- 
midade. As instrugoes podem executar copia, busca, edigao e outras fungoes nas cadeias. 

Valores booleanos tambem sao importantes. Um valor booleano pode assumir um de dois valores: verdadeiro 
ou falso. Em teoria, um unico bit pode representar um booleano, com 0 para falso e 1 para verdadeiro (ou vice- 
-versa). Na pratica, e usado um byte ou uma palavra por valor booleano, porque bits individuais em um byte nao 
tern seus enderegos proprios e, portanto, sao diflceis de acessar. Um sistema comum usa a seguinte convengao: 0 
significa falso e qualquer outra coisa significa verdadeiro. 

A unica situagao em que um valor booleano e normalmente representado por 1 bit e quando ha todo um 
vetor de valores, portanto, uma palavra de 32 bits pode conter 32 valores booleanos. Essa estrutura de dados e 
denominada mapa de bits e ocorre em muitos contextos. Por exemplo, pode ser usado para monitorar os blocos 
livres em um disco. Se o disco tiver n blocos, entao, o mapa de bits tern n bits. 
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Nosso ultimo tipo de dados e o ponteiro, que e apenas um enderego de maquina. Ja vimos ponteiros repe- 
tidas vezes. Nas maquinas Mic-x, SP, PC, LV e CPP sao todos exemplos de ponteiros. Acessar uma variavel a 
uma distancia fixa de um ponteiro, que e o modo como a instrugao ILOAD funciona, e extremamente comum em 
todas as maquinas. Embora os ponteiros sejam uteis, eles tambem sao a origem de diversos erros de programagao, 
geralmente com consequencias muito serias. Eles devem ser usados com grande cuidado. 

5.2.3 Tipos de dados no Core i7 

O Core i7 suporta inteiros em complemento de dois com sinal, inteiros sem sinal, numeros decimais em 
codigo binario e numeros de ponto flutuante padrao IEEE 754, como mostra a Figura 5.6. Por causa de suas 
origens como uma humilde maquina de 8 bits/16 bits, ele manipula bem inteiros com esse comprimento, com 
numerosas instrugoes para efetuar operagoes aritmeticas e operagoes booleanas, e fazer comparagoes entre elas. 
Opcionalmente, o processador pode ser executado no modo de 64 bits, que tambem aceita registradores e opera- 
goes de 64 bits. Operandos nao tern de estar alinhados na memoria, mas o desempenho e melhor se os enderegos 
de palavras forem multiplos de 4 bytes. 


Figura 5.6 Tipos de dados numericos do Core i7. Os tipos suportados estao marcados com x. Tipos marcados com "64 bits" sao aceitos 
somente no modo de 64 bits. 
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O Core i7 tambem e bom na manipulagao de caracteres ASCII de 8 bits: existem instrugoes especiais para 
copiar e pesquisar cadeias de caracteres. Essas instrugoes podem ser usadas com cadeias cujo tamanho e conhe- 
cido antes e com cadeias cuja extremidade e marcada. Elas sao frequentemente usadas em bibliotecas de mani¬ 
pulagao de cadeia de caracteres. 

5.2.4 Tipos de dados na CPU ARM do 0MAP4430 

A CPU ARM do OMAP4430 suporta uma larga faixa de formatos de dados, como mostra a Figura 5.7. So 
para inteiros, ela pode suportar operandos de 8, 16 e 32 bits, com e sem sinal. O tratamento de tipos de dados 
pequenos no OMAP4430 e um pouco mais inteligente do que no Core i7. Internamente, o OMAP4430 e uma 
maquina de 32 bits com caminhos de dados e instrugoes de 32 bits. Para cargas e armazenamentos, o programa 
pode especificar o tamanho e o sinal do valor a ser carregado (por exemplo, load signed byte: LDRSB). O valor 
e entao convertido por instrugoes de carga para um valor comparavel em 32 bits. De modo semelhante, armaze¬ 
namentos tambem especificam o tamanho e o sinal do valor a ser escrito na memoria, e eles so acessam a parte 
especificada do registrador de entrada. 
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Figura 5.7 Tipos de dados numericos do 0MAP4430. Os tipos suportados estao marcodos com. 



Inteiros com sinal usam o complemento de dois. Operandos de ponto flutuante de 32 e 64 bits estao inclul- 
dos e se ajustam ao padrao IEEE 754. Numeros decimals em codigo binario nao sao aceitos. Todos os operandos 
devem estar alinhados na memoria. Tipos de dados de caracteres e de cadeia nao sao aceitos por instrugoes espe- 
ciais de hardware - sao manipulados totalmente no software. 

5.2.5 Tipos de dados da CPU AVR do ATmegal 68 

O ATmegal68 tern um numero muito limitado de tipos de dados. Com uma unica excegao, todos os regis- 
tradores tern 8 bits de largura, portanto, inteiros tambem tern 8 bits de largura. Caracteres tambem tern 8 bits de 
largura. Basicamente, o unico tipo de dado que e de fato suportado pelo hardware para operagoes aritmeticas e o 
byte de 8 bits, como mostra a Figura 5.8. 


Figura 5.8 Tipos de dados numericos do ATmegal 68. Os tipos suportados sao marcados com x. 



Para facilitar os acessos a memoria, o ATmegal68 tambem inclui suporte limitado para ponteiros de 16 bits 
sem sinal. Os ponteiros de 16 bits X, Y e Z podem ser formados pela concatenagao dos pares de registradores 
de 8 bits R26/R27, R28/R29 e R30/R31 , respectivamente. Quando uma carga usa X, Y ou Z como um operando de 
enderego, o processador tambem pode incrementar ou decrementar o valor como for preciso. 


5.3 Formatos de instrucao 

Uma instrugao consiste em um opcode , normalmente em conjunto com alguma informagao adicional, tais como 
de onde vem os operandos e para onde vao os resultados. O topico geral que trata de especificar onde os operandos 
estao (isto e, seus enderegos) e denominado enderegamento, e sera discutido em detalhes mais adiante nesta segao. 

A Figura 5.9 mostra diversos formatos posslveis para instrugoes de nivel 2. Instrugoes sempre tern um opcode 
que indica o que a instrugao faz. Pode haver zero, um, dois ou tres enderegos presentes. 



























Caphulo 5 • 0 nivel de arquitetura do conjunto de instrucao 


285 


Figura 5.9 Quatro formatos comuns de instrucao: (a) Instrucao sem endereco. (b) Instrucao de um endereco. (c) Instrucao de dois 
enderecos. (d) Instrucao de tres enderecos. 
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Em algumas maquinas, todas as instrugoes tem o mesmo comprimento; em outras, pode haver muitos com- 
primentos diferentes. Instrugoes podem ser mais curtas, mais longas ou do mesmo comprimento da palavra. Ter 
instrugoes do mesmo comprimento da palavra e mais simples e facilita a decodificagao, mas muitas vezes desper- 
diga espago, ja que, desse modo, todas as instrugoes precisam ser tao longas quanto a mais longa. A Figura 5.10 
mostra algumas relagoes posslveis entre comprimento de instrugao e comprimento de palavra. 


Figura 5.10 


Algumas relacoes possiveis entre comprimento de instrucao e de palavra. 
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5.3.1 Criterios de projeto para formatos de instrucao 

Quando uma equipe de projeto de computador tem de escolher formatos de instrugoes para sua maquina, 
deve considerar varios fa tores. A dificuldade dessa decisao nao deve ser subestimada. A decisao sobre forma to 
de instrugao deve ser tomada no inlcio do projeto de um novo computador. Se ele for um sucesso comercial, o 
conjunto de instrugoes pode sobreviver por 40 anos ou mais. A capacidade de acrescentar novas instrugoes e de 
explorar outras oportunidades que surgem durante um longo perlodo de tempo e de grande importancia, mas 
somente se a arquitetura (e a empresa que a estiver construindo) sobreviver por tempo suficiente para que a 
arquitetura seja um sucesso. 

A eficiencia de determinada ISA depende muito da tecnologia com a qual o computador deve ser implemen- 
tado. Essa tecnologia passara por grandes alteragoes durante um longo perlodo e algumas das escolhas da ISA 
serao vistas (usando uma visao normal) como infebzes. Por exemplo, se os acessos a memoria sao rapidos, um 
projeto baseado em pilha (como IJVM) e bom, mas, se forem lentos, o negocio e ter muitos registradores (como a 
CPU ARM do OMAP4430). Os leitores que acharem que essa escolha e facil estao convidados a pegar uma folha 
de papel e anotar suas previsoes, para computadores daqui a 20 anos, sobre (1) uma velocidade de clock de CPU 
tlpica e (2) um tempo de acesso tlpico a RAM. Dobre bem esse papel e guarde-o por 20 anos. Depois, desdobre-o 
e leia. Os menos humildes podem esquecer a folha de papel e publicar suas previsoes na Internet agora. 





































286 


Organizacao estruturada de computadores 


E claro que ate os projetistas que tem a melhor visao do futuro talvez nao consigam fazer as escolhas certas. 
E, mesmo que pudessem, teriam de lidar com o curto prazo tambem. Se essa elegante ISA for um pouco mais cara 
que a ISA feia fabricada agora pelos concorrentes, a empresa talvez nao sobreviva o suficiente para que o mundo 
aprecie sua elegancia. 

Se todas as outras coisas forem iguais, instrugoes curtas sao melhores do que as longas. Um programa que 
consiste em n instrugoes de 16 bits ocupa apenas metade do espago de memoria ocupado por n instrugoes de 32 
bits. Com o decllnio dos pregos da memoria, esse fator podera ser menos importante no futuro, se nao fosse pelo 
fa to de que a metastase do software e ainda mais rapida do que a queda dos pregos de memoria. 

Alem do mais, minimizar o tamanho das instrugoes pode torna-las mais diflceis de codificar ou mais diflceis 
de sobrepor. Portanto, e preciso contrabalangar o tamanho mlnimo da instrugao com o tempo requerido para 
decodifica-la e executa-la. 

Outra razao para minimizar o comprimento da instrugao ja e importante e esta ficando ainda mais impor¬ 
tante com processadores mais rapidos: a largura de banda da memoria (o numero de bits/s que a memoria pode 
fornecer). O crescimento impressionante das velocidades de processadores na ultima decada nao foi equiparado 
por crescimentos iguais na largura de banda de memoria. Uma restrigao cada vez mais comum imposta aos pro¬ 
cessadores surge da incapacidade do sistema de memoria de fornecer instrugoes e operandos com a velocidade 
com que o processador pode consumi-los. Cada memoria tem uma largura de banda que e determinada por sua 
tecnologia e por seu projeto de engenharia. O gargalo da largura de banda se aplica nao somente a memoria prin¬ 
cipal, mas tambem a todas as caches. 

Se a largura de banda de uma cache de instrugao for t bps e o comprimento medio da instrugao for r bits, a 
cache pode entregar no maximo t/r instrugoes por segundo. Note que esse e um limite superior para a taxa a qual 
o processador pode executar instrugoes, embora hoje haja esforgos de pesquisa dedicados a romper ate mesmo 
essa barreira que parece imposslvel. E claro que a taxa a qual as instrugoes podem ser executadas (isto e, a velo¬ 
cidade do processador) pode ser limitada pelo comprimento da instrugao. Instrugoes mais curtas significam um 
processador mais rapido. Como processadores modernos sao capazes de executar varias instrugoes a cada ciclo de 
clock , buscar varias instrugoes por ciclo de clock e imperativo. Esse aspecto da cache de instrugao faz do tamanho 
das instrugoes um importante criterio de projeto, que tem importantes implicagoes para o desempenho. 

Um segundo criterio de projeto e espago suficiente no forma to da instrugao para expressar todas as operagoes 
desejadas. Uma maquina com 2 n operagoes que tenha todas as instrugoes menores do que n bits e imposslvel. 
Simplesmente nao haveria espago suficiente no opcode para indicar qual instrugao e a necessaria. E a historia ja 
mostrou mais de uma vez a insensatez de nao deixar um numero substancial de opcodes livres para futuros acres- 
cimos ao conjunto de instrugoes. 

Um terceiro criterio se refere ao numero de bits em um campo de enderego. Considere o projeto de uma 
maquina com um caractere de 8 bits e uma memoria principal que deve conter 2 32 caracteres. Os projetistas pode- 
riam preferir atribuir enderegos consecutivos a unidades de 8, 16, 24 ou 32 bits, bem como outras possibilidades. 

Imagine o que aconteceria se a equipe de projeto se dividisse em duas facgoes antagonistas, uma defendendo 
o byte de 8 bits como unidade basica de memoria e outra defendendo a palavra de 32 bits. O primeiro grupo pro- 
poria uma memoria de 2 32 bytes, numerados 0, 1, 2, 3, ..., 4.294.967.295. O ultimo grupo proporia uma memoria 
de 2 30 palavras numeradas 0, 1, 2, 3, ..., 1.073.741.823. 

O primeiro grupo diria que, para comparar dois caracteres na organizagao de palavra de 32 bits, o programa 
nao somente teria de buscar as palavras que contem os caracteres, mas tambem teria de extrair cada caractere de 
sua palavra para poder compara-los. Essa operagao custa instrugoes extras e, portanto, desperdiga espago. A orga¬ 
nizagao de 8 bits, por outro lado, da um enderego para cada caractere, o que torna a comparagao muito mais facil. 

Os defensores da palavra de 32 bits revidariam, destacando que sua proposta requer apenas 2 30 enderegos 
separados, o que resulta em um comprimento de enderego de somente 30 bits, ao passo que a proposta de bytes de 
8 bits requer 32 bits para enderegar a mesma memoria. Um enderego mais curto significa uma instrugao mais curta 
que, alem de ocupar menos espago, tambem exige menos tempo de busca. Como alternativa, eles poderiam manter 
o enderego de 32 bits para referenciar uma memoria de 16 GB em vez de uma memoria insignificante de 4 GB. 
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Esse exemplo demonstra que, para obter melhor resolugao de memoria, e preciso pagar o prego de endere- 
gos mais longos e, por conseguinte, instrugoes mais longas. A ultima palavra em resolugao e uma organizagao 
de memoria na qual todos os bits sao diretamente enderegaveis (por exemplo, o Burroughs B1700). No outro 
extremo, esta uma memoria que consiste em palavras muito longas (por exemplo, a serie CDC Cyber tinha 
palavras de 60 bits). 

Modernos sistemas de computagao chegaram a uma solugao intermediary que, de certo modo, ficou com o 
pior das duas. Eles requerem todos os bits necessarios para enderegar bytes individuais, mas os acessos a memoria 
leem uma, duas ou as vezes quatro palavras por vez. Ler 1 byte da memoria no Core i7, por exemplo, traz um 
mlnimo de 8 bytes e provavelmente toda uma linha de cache de 64 bytes. 

5.3.2 Expansao de opcodes 

Na segao anterior, vimos como ha um compromisso entre enderegos curtos e boa resolugao de memoria. 
Nesta segao, examinaremos novas permutas que envolvem opcodes e enderegos. Considere uma instrugao de (n + k) 
bits com um opcode de k bits e um unico enderego de n bits. Essa instrugao permite 2 k operagoes diferentes e 2 n 
celulas de memoria enderegaveis. Como alternativa, os mesmos (n + k) bits poderiam ser desmembrados em um 
opcode de (k - 1) bits e um enderego de (n + 1) bits, o que significa apenas a metade do numero de instrugoes, 
mas duas vezes mais memoria enderegavel, ou a mesma quantidade de memoria, mas com o dobro da resolugao. 
Um opcode de (k + 1) bits e um enderego de (n - 1) bits da mais operagoes, mas o prego e um numero menor de 
celulas enderegaveis ou uma resolugao pior e a mesma quantidade de memoria enderegavel. E posslvel fazer per¬ 
mutas bastante sofisticadas entre bits de opcode e bits de enderego, bem como as mais simples que acabamos de 
descrever. O esquema discutido nos paragrafos seguintes e denominado expansao de opcode. 

O conceito de expansao de opcode pode ser visto com mais clareza com um exemplo simples. Considere uma 
maquina na qual as instrugoes tern 16 bits de comprimento e os enderegos tern 4 bits de comprimento, como mos- 
tra a Figura 5.11. Essa situagao poderia ser razoavel para uma maquina que tern 16 registradores (por conseguinte, 
um enderego de registrador de 4 bits), na qual ocorrem todas as operagoes aritmeticas. Um projeto poderia ser um 
opcode de 4 bits e tres enderegos em cada instrugao, o que da 16 instrugoes de tres enderegos. 


Figura 5.11 Instrucao com um opcode de 4 bits e tres compos de endereco de 4 bits. 


15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 


Opcode 


Enderego 1 


Enderego 2 


Enderego 3 


Contudo, se os projetistas precisarem de 15 instrugoes de tres enderegos, 14 instrugoes de dois enderegos, 
31 instrugoes de um enderego e 16 instrugoes sem absolutamente enderego algum, podem usar opcodes de 0 a 14 
como instrugoes de tres enderegos, mas interpretar o opcode 15 de modo diferente (veja a Figura 5.12). 

O opcode 15 significa que o opcode esta contido nos bits de 8 a 15 em vez de 12 a 15. Os bits de 0 a 3 
e de 4 a 7 formam dois enderegos, como sempre. As 14 instrugoes de dois enderegos tern todas 1111 nos 4 
bits da extrema esquerda, e numeros de 0000 a 1101 nos bits de 8 a 11. Instrugoes que tern 1111 nos 4 bits 
da extrema esquerda e 1110 ou 1111 nos bits de 8 a 11 terao tratamento especial, isto e, serao tratadas como 
se seus opcodes estivessem nos bits de 4 a 15. O resultado e 32 novos opcodes. Como sao necessarios apenas 
31, o opcode 111111111111 e interpretado para significar que o opcode real esta nos bits 0 a 15, o que da 16 
instrugoes sem nenhum enderego. 
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Figura 5.12 Expansao de opcode que permite 15 instrucoes de tres enderecos, 14 instrucoes de dois enderecos, 31 instrucoes de um 
endereco e 16 instrucoes sem endereco. Os compos marcados com xxxx, yyyye zzzzsao compos de endereco de 4 bits. 
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Ao longo dessa nossa discussao, o opcode ficou cada vez mais longo: as instrugoes de tres enderegos tern um 
opcode de 4 bits, as instrugoes de dois enderegos tem um opcode 8 bits, as instrugoes de um enderego tern 
um opcode de 12 bits e as instrugoes sem enderego tem um opcode de 16 bits. 

A ideia de expandir opcodes demonstra um compromisso entre o espago para opcodes e o espago para 
outras informagoes. Na pratica, opcodes expandidos nao sao tao limpos e regulares como em nosso exemplo. Na 
verdade, ha dois modos individual de explorar a capacidade de usar tamanhos variaveis de opcodes. Primeiro, 
todas as instrugoes podem ser mantidas com o mesmo comprimento, atribuindo os opcodes mais curtos as 
instrugoes que precisam de mais bits para especificar outras coisas. Segundo, o tamanho da instrugao media 
pode ser minimizado com a escolha dos opcodes mais curtos para instrugoes comuns e dos mais longos para 
instrugoes raras. 
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Levando a ideia de opcodes de comprimento variavel ao extremo, e posslvel minimizar o comprimento 
da instrugao media codificando cada instrugao para minimizar o numero de bits necessario. Infelizmente, 
isso resultaria em instrugoes de varios tamanhos, que nao teriam alinhamento regular em fronteiras de bytes. 
Embora ja tenham existido ISAs que possulam essa propriedade (por exemplo, a malfadada Intel 432), a impor¬ 
tance do alinhamento e tao grande para a rapida decodificagao de instrugoes que esse grau de otimizagao e 
quase certamente contraproducente. 

5.3.3 Formatos de instrucoes do Core i7 

Os formatos de instrugoes do Core i7 sao de alta complexidade e irregularidade, com ate seis campos de 
comprimento variavel, cinco dos quais opcionais. O padrao geral e mostrado na Figura 5.13. Esse estado de coisas 
ocorreu porque a arquitetura evoluiu por muitas geragoes e adotou algumas opgoes desastrosas no inlcio. Em 
nome da compatibilidade, nao foi posslvel reverter essas primeiras decisoes mais tarde. Em geral, para instrugoes 
de dois operandos, se um estiver na memoria, o outro nao pode estar. Por isso, existem instrugoes para somar dois 
registradores, somar um registrador com memoria e somar memoria com um registrador, mas nao para somar 
uma palavra de memoria com outra palavra de memoria. 


Figura 5.13 Formatos de instrucao do Core i7. 
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Nas primeiras arquiteturas Intel, todos os opcodes tinham 1 byte, embora o conceito de um byte de prefixo 
fosse usado de modo amplo para modificar algumas instrugoes. Um byte de prefixo e um opcode extra intro- 
duzido na frente de uma instrugao para alterar sua agao. A instrugao WIDE em IJVM e um exemplo de byte de 
prefixo. Infelizmente, em algum ponto da evolugao, a Intel esgotou seus opcodes, portanto, um deles, o OxFF, foi 
designado como codigo de escape para permitir um segundo byte de instrugao. 

Os bits individual nos opcodes do Core i7 nao dao muita informagao sobre a instrugao. A unica estrutura 
no campo de opcode e a utilizagao do bit de ordem baixa em algumas instrugoes para indicar byte/palavra, e a 
utilizagao do bit adjacente para indicar se o enderego de memoria (se estiver presente) e origem ou destino. 
Portanto, em geral, o opcode deve ser decodificado por completo para determinar que classe de operagao deve ser 
executada - e, assim, qual e o comprimento da instrugao. Isso dificulta implementagoes de alto desempenho, uma 
vez que e preciso decodificagao extensiva antes mesmo de poder determinar onde a proxima instrugao comega. 

Em seguida ao byte de opcode na maioria das instrugoes que referenciam um operando na memoria, vem 
um segundo byte que informa tudo sobre o operando. Esses 8 bits sao subdivididos em um campo MOD de 2 
bits e dois campos de registradores de 3 bits, REG e R/M. As vezes, os 3 primeiros bits desse byte sao usados 
como extensao para o opcode , o que da um total de 11 bits para o opcode. Contudo, o campo de modo de 2 bits 
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significa que ha apenas quatro maneiras de enderecar operandos e um deles deve ser sempre um registrador. 
Pela logica, qualquer um dos EAX, EBX, ECX, EDX, ESI, EDI, EBP, ESP deveria ser especificavel como qualquer 
um dos registradores, mas as regras de codificagao prolbem algumas combinagoes e os usam somente para casos 
especiais. Alguns modos exigem um byte adicional, denominado SIB (Scale, Index, Base - escala, Indice, base). 
Esse esquema nao e ideal, mas e uma solugao de compromisso dadas as demandas confidantes da compatibilidade 
e o desejo de agregar novas caracterlsticas que nao foram previstas no inlcio. 

Alem de tudo isso, algumas instrugoes tern 1, 2 ou 4 bytes a mais que especificam um enderego de memoria 
(deslocamento) e possivelmente mais outros 1, 2 ou 4 bytes que contem uma constante (operando imediato). 

5.3.4 Formatos de instrucoes da CPU ARM do 0MAP4430 

A ISA ARM do OMAP4430 consiste inteiramente em instrugoes de 16 e 32 bits, alinhadas na memoria. 
As instrugoes em geral sao simples e especificam apenas uma agao. Uma instrugao aritmetica tlpica especifica 
dois registradores para fornecer os operandos de origem e um unico registrador de destino. As instrugoes de 16 
bits sao versoes reduzidas da instrugao de 32 bits. Elas realizam as mesmas operagoes, mas so permitem dois 
operandos de registrador (isto e, o registrador de destino precisa ser o mesmo de uma das entradas) e apenas os 
oito primeiros registradores podem ser especificados como entradas. Os arquitetos da ARM chamaram essa versao 
menor da ISA ARM de Thumb ISA. 

Outras variantes permitem que as instrugoes fornegam uma constante de 3, 8, 12, 16 ou 24 bits sem sinal em 
vez de um dos registradores. Para uma instrugao de carga, dois registradores (ou um registrador e uma constante 
de 8 bits com sinal) sao somados para especificar o enderego de memoria a ser lido. Os dados sao escritos no 
outro registrador especificado. 

O formato das instrugoes da ARM de 32 bits e ilustrado na Figura 5.14. O leitor atento notara que alguns 
dos formatos tern os mesmos campos (por exemplo, LONG MULTIPLY e SWAP). No caso da instrugao SWAP, o 
decodificador sabe que a instrugao e um SWAP somente quando ve que a combinagao de valores de campo para 
o MULe invalida. Com o tempo, foram acrescentados novos formatos para extensoes de instrugao e a Thumb ISA. 
Na epoca em que este livro foi escrito, a contagem estava em 21, e aumentava a cada dia. (Sera que falta muito 
para vermos alguma empresa anunciar “A mais complexa maquina RISC do mundo”?) Porem, a maior parte das 
instrugoes ainda usa os formatos mostrados na figura. 


Figura 5.14 


Formatos de instrucao da ARM de 32 bits. 
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Os bits 26 e 27 de cada instrugao sao a primeira parada para determinar o formato da instrugao e dizer 
ao hardware onde achar o restante do opcode , se houver mais. Por exemplo, se os bits 26 e 27 forem ambos zero e 
o bit 25 for zero (operando nao e um imediato), e o deslocamento do operando de entrada nao for invalido (o que 
indica que a instrugao e uma multiplicagao ou ponto de desvio), entao, as duas origens sao registradores. Se o bit 25 
for um, entao, uma origem e um registrador e a outra e uma constante na faixa de 0 a 4.095. Nos dois casos, o destino 
e sempre um registrador. Existe espago de codificagao suficiente para ate 16 instrugoes, todas elas usadas atualmente. 

Com instrugoes de 32 bits, nao e posslvel incluir uma constante de 32 bits na instrugao. A instrugao MOVT 
reserva os 16 bits mais altos de um registrador de 32 bits, deixando espago para outra instrugao definir os 16 bits 
mais baixos restantes. Essa e a unica instrugao a usar esse formato. 

Toda instrugao de 32 bits tern o mesmo campo de 4 bits nos bits mais significativos (bits 28 a 31). Esse e o 
campo de condigao, que torna qualquer instrugao uma instrugao predicada. Uma instrugao predicada e executa- 
da em geral no processador, mas, antes de escrever seu resultado em um registrador (ou memoria), ela primeiro 
verifica a condigao da instrugao. Para instrugoes ARM, a condigao e baseada no estado do registrador de estado 
do processador (PSR). Esse registrador mantem as propriedades aritmeticas da ultima operagao aritmetica (por 
exemplo, zero, negativo, estourado etc.). Se a condigao nao for atendida, o resultado da instrugao condicional 
e descartado. 

O formato da instrugao de desvio codifica o maior valor imediato, usado para calcular um enderego de des¬ 
tino para desvios e chamadas de procedimento. Essa instrugao e especial porque e a unica na qual os 24 bits de 
dados sao necessarios para especificar um enderego. Para essa instrugao, ha um unico opcode de 3 bits. O ende¬ 
rego e o enderego de destino dividido por quatro, o que torna a faixa alcangavel aproximadamente ±2 25 bytes em 
relagao a instrugao corrente. 

De modo nltido, para especificar as instrugoes, os projetistas da ISA ARM quiseram utilizar totalmente cada 
combinagao de bits, incluindo combinagoes de operandos que seriam invalidas. Essa tecnica gera uma logica de 
decodificagao extremamente complicada, mas, ao mesmo tempo, permite que o numero maximo de operagoes 
seja codificado em uma instrugao de 16 ou 32 bits com tamanho fixo. 

5.3.5 Formatos de instrucoes da CPU AVR do ATmegal 68 

O ATmegal68 tern seis formatos simples de instrugao, como ilustrado na Figura 5.15. As instrugoes sao de 
2 ou 4 bytes. O formato 1 consiste em um opcode e dois operandos de registrador, ambos sendo entradas e um 
tambem sendo a salda da instrugao. Esse formato e usado, por exemplo, pela instrugao ADD para registradores. 

O formato 2 tambem tern 16 bits e consiste em 16 opcodes adicionais e um numero de registrador de 5 bits. 
Ele aumenta o numero de operagoes codificadas na ISA ao custo de reduzir o numero de operandos da instru¬ 
gao para um. Instrugoes que usam esse formato realizam uma operagao unaria, tomando uma unica entrada de 
registrador e escrevendo a salda da operagao no mesmo registrador. Alguns exemplos desse tipo de instrugao sao 
“negue” e “incremente”. 

O formato 3 tern um operando imediato sem sinal de 8 bits. Para acomodar um valor imediato grande em 
uma instrugao de 16 bits, as instrugoes que usam essa codificagao so podem ter um operando de registrador 
(usado como entrada e salda) e o registrador so pode ser R16-R31 (o que limita a codificagao do operando a 4 
bits). Alem disso, o numero de bits do opcode e reduzido a metade, permitindo que apenas quatro instrugoes usem 
esse formato (SUBCI, SUBI, ORI e ANDI). 

O formato 4 codifica a instrugao de carga e armazenamento, que inclui um operando imediato sem sinal de 
6 bits. O registrador de base e um registrador fixo nao especificado na codificagao da instrugao, pois e decorrente 
do opcode de carga/armazenamento. 

Os formatos 5 e 6 sao usados para saltos e chamadas de procedimento. O primeiro formato inclui um valor ime¬ 
diato com sinal de 12 bits, que e somado ao valor do PC da instrugao para calcular o destino da instrugao. O ultimo 
formato expande o deslocamento para 22 bits, fazendo com que a instrugao AVR tenha 32 bits de comprimento. 
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Figura 5.15 Formatos de instrucao do ATmegal 68. 
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5.4 Enderecamento 

Grande parte das instrugoes tem operandos, portanto, e necessario algum modo de especificar onde eles 
estao. Esse assunto, que discutiremos agora, e denominado enderegamento. 

5.4.1 Modos de enderecamento 

Ate aqui, demos pouca atengao ao modo como os bits de um campo de enderego sao interpretados para achar 
o operando. Agora, chegou a hora de investigar esse assunto, denominado modos de enderegamento. Como 
veremos, existem muitas formas de fazer isso. 

5.4.2 Enderecamento imediato 

O modo mais simples de uma instrugao especificar um operando e a parte da instrugao referente ao enderego 
conter o operando de fato em vez de um enderego ou outra informagao que descreva onde ele esta. Tal operando 
e denominado operando imediato porque ele e automaticamente buscado na memoria, ao mesmo tempo em que 
a propria instrugao; por conseguinte, ele esta de pronto disponlvel para uso. Uma posslvel instrugao imediata para 
carregar o registrador R1 com a constante 4 e mostrada na Figura 5.16. 


Figura 5.16 


Instrucao imediata para carregar 4 no registrador 1. 


MOV 


R1 


4 
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O enderegamento imediato tem a vantagem de nao exigir uma referencia extra a memoria para buscar o ope- 
rando. A desvantagem e que so uma constante pode ser fornecida desse modo. Alem disso, o numero de valores e 
limitado pelo tamanho do campo. Ainda assim, muitas arquiteturas usam essa tecnica para especificar constantes 
inteiras pequenas. 

5.4.3 Enderecamento direto 

Um metodo para especificar um operando na memoria e dar seu enderego completo. Esse modo e denomina- 
do enderegamento direto. Assim como o imediato, o enderegamento direto tem uso restrito: a instrugao sempre 
acessara exatamente a mesma localizagao de memoria. Portanto, embora o valor possa mudar, sua localizagao 
nao pode. Assim, o enderegamento direto so pode ser usado para acessar variaveis globais cujos enderegos sejam 
conhecidos no momento da compilagao. Nao obstante, muitos programas tem variaveis globais, portanto, esse 
modo e muito utilizado. Os detalhes de como o computador sabe quais enderegos sao imediatos e quais sao dire- 
tos serao discutidos mais adiante. 


5.4.4 Enderecamento de registrador 

Enderegamento de registrador e conceitualmente o mesmo que enderegamento direto, mas especifica um 
registrador em vez de uma localizagao de memoria. Como os registradores sao tao importantes (pelo acesso 
rapido e enderegos curtos), esse modo de enderegamento e o mais comum na maioria dos computadores. Muitos 
compiladores fazem todo o posslvel para determinar quais variaveis serao acessadas com maior frequencia (por 
exemplo, o indice de um lago) e as colocam em registradores. 

Esse modo de enderegamento e conhecido simplesmente como modo registrador. Em arquiteturas carregue/ 
armazene, como a arquitetura ARM do OMAP4430, quase todas as instrugoes usam apenas esse modo de ende¬ 
regamento. A unica vez em que esse modo de enderegamento nao e usado e quando um operando e transferido 
da memoria para um registrador (instrugao LDR) ou de um registrador para a memoria (instrugao STR). Mesmo 
quando se trata dessas instrugoes, um dos operandos e um registrador - de onde a palavra de memoria deve vir 
ou para onde deve ir. 

5.4.5 Enderecamento indireto de registrador 

Nesse modo, o operando que esta sendo especificado vem da memoria ou vai para ela, mas seu enderego nao 
esta ligado a instrugao, como no enderegamento direto. Em vez disso, esta contido em um registrador. Quando 
um enderego e usado dessa maneira, ele e denominado ponteiro. Uma grande vantagem do enderegamento 
indireto de registrador e que ele pode referenciar a memoria sem pagar o prego de ter um enderego de memoria 
completo na instrugao. Alem disso, tambem pode usar diferentes palavras de memoria em diferentes execugoes 
da instrugao. 

Para ver por que poderia ser util usar uma palavra diferente em cada execugao, imagine um lago que percorre 
os elementos de um vetor unidimensional de inteiros de E024 elementos para calcular a soma dos elementos no 
registrador R1. Fora do lago, algum outro registrador, por exemplo, R2, pode ser ajustado para apontar para o 
primeiro elemento do vetor, e outro registrador, por exemplo, R3, pode ser ajustado para apontar para o primei- 
ro enderego que se encontra logo apos o vetor. Com 1.024 inteiros de 4 bytes cada, se o vetor comegar em A, o 
primeiro enderego logo apos o vetor sera A + 4096. Um codigo em linguagem de montagem tlpico para efetuar 
esse calculo e mostrado na Figura 5.17 para uma maquina de dois enderegos. 

Nesse pequeno programa, usamos varios modos de enderegamento. As tres primeiras instrugoes usam o 
modo registrador para o primeiro operando (o destino) e o modo imediato para o segundo operando (uma 
constante indicada pelo sinal #). A segunda instrugao coloca o enderego de A em R2, nao o conteudo. E isso que 
o sinal # informa ao assembler. De modo semelhante, a terceira instrugao coloca em R3 o enderego da primeira 
palavra logo apos o vetor. 
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Figura 5.17 


Programa em linguagem de montagem generico para calcular a soma dos elementos de um vetor. 


MOV ri ,#o 
MOV R2,#A 
MOV R3,#A+4096 
LOOP: ADD RI ,(R2) 

ADD R2,#4 
CMP R2,R3 
BLT LOOP 


acumule a soma em RI, inicialmente 0 

R2 = enderego do vetor A 

R3 = enderego da primeira palavra logo apos A 

indireto de registrador via R2 para obter operando 

incremente R2 de uma palavra (4 bytes) 

ja terminamos? 

se R2 < R3, nao terminamos, portanto, continue 


E interessante notar nesse caso que o corpo do lago nao contem nenhum enderego de memoria. Ele usa o 
modo registrador e o modo indireto de registrador na quarta instrugao. Usa o modo registrador e o modo indireto 
de registrador na quarta instrugao. Usa o modo registrador e o modo imediato na quinta instrugao e o modo regis¬ 
trador duas vezes na sexta instrugao. O BLT poderia usar um enderego de memoria, mas provavelmente especifica 
o enderego para o qual desviar com um deslocamento de 8 bits em relagao a propria instrugao BLT. Evitando por 
completo a utilizagao de enderegos de memoria, produzimos um lago curto e rapido. A proposito, na realidade, 
esse programa e para o Core i7 - apenas renomeamos as instrugoes e registradores e alteramos a notagao para 
facilitar a leitura, porque a sintaxe da linguagem padrao de montagem do Core i7 (MASM) e quase bizarra, um 
resqulcio da vida passada da maquina como um 8088. 

Vale a pena observar que, em teoria, ha outro modo de fazer esse calculo sem usar enderegamento indireto 
de registrador. O lago poderia conter uma instrugao para somar A com RI , tal como 

ADD R1,A 

Entao, a cada iteragao do lago, a propria instrugao poderia ser incrementada por um fator de 4, de modo que, 
apos uma iteragao, ela seria 

ADD RI ,A+4 

e assim por diante, ate concluir. 

Um programa que modifica a si mesmo e denominado programa automodificador. Quern teve essa ideia foi 
ninguem menos do que John von Neumann; ela fazia sentido nos primeiros computadores, que nao tinham ende¬ 
regamento indireto de registrador. Hoje, programas automodificadores sao considerados de mau gosto e diflceis 
de entender. Eles tambem nao podem ser compartilhados por varios processos ao mesmo tempo. Alem do mais, 
sequer funcionam corretamente em maquinas que tern uma cache dividida de nlvel 1 se a cache de instrugao nao 
tiver circuitos para fazer escritas retroativas (porque os projetistas presumiram que os programas nao se auto- 
modificam). Por fim, programas automodificadores tambem falharao em maquinas com espagos separados para 
instrugao e dados. De modo geral, essa e uma ideia que chegou e (felizmente) ja se foi. 

5.4.6 Enderecamento indexado 

Muitas vezes, e util poder referenciar palavras de memoria cujo deslocamento em relagao a um registrador e 
conhecido. Vimos alguns exemplos na IJVM, na qual variaveis locais sao referenciadas dando seu deslocamento 
em relagao a LV. Enderegamento indexado e o nome que se da ao enderegamento de memoria que fornece um 
registrador (expllcito ou impllcito) mais um deslocamento constante. 

O acesso a variavel local em IJVM usa um ponteiro para a memoria (LV) em um registrador mais um peque- 
no deslocamento na propria instrugao, como mostra a Figura 4.19(a). Contudo, tambem e posslvel fazer isso 
do outro modo: o ponteiro de memoria na instrugao e o pequeno deslocamento no registrador. Para ver como 
isso funciona, considere o seguinte calculo. Temos dois vetores unidimensionais de 1.024 palavras cada, A e B, 
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e desejamos calcular A. AND B. para todos os pares e entao efetuar uma operagao OR com esses 1.024 produtos 
booleanos para ver se ha ao menos um par diferente de zero no conjunto. Uma tecnica seria colocar o enderego de 
A em um registrador, o enderego de B em um segundo registrador, e entao percorre-los juntos no mesmo passo, 
semelhante ao que fizemos na Figura 5.17. Esse modo de faze-lo funcionaria com certeza, mas ha outra maneira 
melhor e mais geral, ilustrada na Figura 5.18. 


Figura 5.18 


Programa em linguagem de montagem generico para calcular a operacao OR de A AND B. para dois vetores de 1.024 elementos. 


MOV ri ,#o 
MOV R2,#0 
MOV R3,#4096 
LOOP: MOV R4,A 

AND R4,B(R2) 
OR RI ,R4 
ADD R2,#4 
CMP R2,R3 
BLT LOOP 


acumule o OR em RI, inicialmente 0 

R2 = Indice, i, do produto atual: A[i] AND B[i] 

R3 = primeiro valor de Indice a nao usar 
R4 = A[i] 

R4 = A[i] AND B[i] 

OR de todos os produtos booleanos para RI 
i = i + 4 (passo em unidades de 1 palavra = 4 bytes) 
ja terminamos? 

se R2 < R3, nao terminamos, portanto, continue 


A operagao desse programa e direta. Aqui, precisamos de quatro registradores: 

1. RI - Contem o OR acumulado dos termos do produto booleano. 

2. R2 - O Indice, i, que e usado para percorrer os vetores. 

3. R3 - A constante 4.096, que e o valor mais baixo de i a nao usar. 

4. R4 - Um registrador transitorio para conter cada produto a medida que e formado. 


Apos inicializar os registradores, entramos no lago de seis instrugoes. A instrugao em LOOP traz A. para 
R4. Aqui, o calculo da origem usa o modo indexado. Um registrador, R2, e uma constante, o enderego de A, sao 
somados e usados para referenciar a memoria. A soma dessas duas quantidades vai para a memoria, mas nao e 
armazenada em nenhum registrador visivel ao usuario. A notagao 

MOV R4,A(R2) 

significa que o destino usa o modo registrador com R4, ao passo que o registrador e a origem usam o modo 
indexado, sendo A o deslocamento e R2 o registrador. Se A tiver o valor, por exemplo, 124.300, a instrugao de 
maquina para isso provavelmente e parecida com a mostrada na Figura 5.19. 

Na primeira vez que o lago e percorrido, R2 e 0 (porque foi inicializado assim), portanto, a palavra de memoria 
enderegada e A 0 , no enderego 124.300. Essa palavra e carregada em R4. Na proxima vez que o lago e percorrido, 
R2 e 4, portanto, a palavra de memoria enderegada e A p em 124.304, e assim por diante. 
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Figura 5.19 Possivel representacao de MOV R4,A(R2). 


MOV 

R4 

R2 

124300 


Como tlnhamos prometido, nesse caso o deslocamento na instrugao em si e o ponteiro de memoria e o valor 
no registrador e um inteiro pequeno, que e incrementado durante o calculo. Essa forma requer um campo de 
deslocamento na instrugao grande o suficiente para conter um enderego, claro, de modo que e menos eficiente 
do que faze-lo da outra maneira; entretanto, ainda assim, muitas vezes essa e a melhor solugao. 

5.4.7 Enderecamento de base indexado 

Algumas maquinas tern um modo de enderegamento no qual o enderego de memoria e calculado somando 
dois registradores mais um deslocamento (opcional). Esse modo as vezes e denominado enderegamento de base 
indexado. Um dos registradores e a base e o outro e o Indice. Esse modo teria sido util aqui. Fora do lago pode- 
riamos ter posto o enderego de A em R5 e o enderego de B em R6. Entao, poderlamos ter substituldo a instrugao 
em LOOP e sua sucessora por 

LOOP: MOV R4,(R2+R5) 

AND R4,(R2+R6) 

O ideal seria que houvesse um modo de enderegamento para enderegar indiretamente a soma de dois regis¬ 
tradores sem nenhum deslocamento. Como alternativa, ate mesmo uma instrugao com um deslocamento de 8 bits 
teria sido uma melhoria em relagao ao codigo original, ja que poderlamos ajustar ambos os deslocamentos para 0. 
Entretanto, se eles forem sempre de 32 bits, nada ganharlamos nesse modo. Na pratica, contudo, maquinas que 
tern tal modo costumam ter uma forma com um deslocamento de 8 bits ou 16 bits. 


5.4.8 Enderecamento de pilha 

Ja observamos ser muito desejavel que as instrugoes de maquina sejam as mais curtas posslveis. O limite final na 
redugao de comprimentos de enderegos e nao ter enderegos. Como vimos no Capltulo 4, instrugoes de zero enderego, 
como IADD, sao posslveis em conjungao com uma pilha. Nesta segao, examinaremos mais de perto o enderegamento 
de pilha. 

• Notacdo polonesa invertida 

E uma antiga tradigao da matematica colocar o operador entre os operandos, como em x + y, em vez de apos 
os operandos, como em x y +. A forma com o operador entre os operandos e denominada infixa. A forma com o 
operador apos os operandos e denominada pos-fixa ou notagao polonesa invertida, que deve seu nome ao logico 
polones J. Lukasiewicz (1958), pesquisador das propriedades dessa notagao. 

A notagao polonesa invertida tern diversas vantagens sobre a notagao infixa para expressar formulas algebri- 
cas. Primeiro, qualquer formula pode ser expressa sem parenteses. Segundo, ela e conveniente para avaliar formu¬ 
las em computadores com pilhas. Terceiro, operadores infixos tern precedencia, o que e arbitrario e indesejavel. 
Por exemplo, sabemos que ax b + c significa (a x b) + c, e nao ax (b + c) porque foi definido arbitrariamente que 
a multiplicagao tern precedencia sobre a adigao. Mas um deslocamento para a esquerda tern precedencia sobre 
AND booleano? Quern sabe? A notagao polonesa invertida elimina esse inconveniente. 
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Existem diversos algoritmos para converter formulas infixas em notagao polonesa invertida. A que fornece- 
remos logo adiante e uma adaptagao de uma ideia de E. W. Dijkstra. Considere que uma formula e composta dos 
seguintes slmbolos: variaveis, operadores diadicos (dois operandos) + - * / e parenteses a esquerda e a direita. 
Para marcar as extremidades de uma formula, vamos inserir o slmbolo _L apos o ultimo slmbolo e antes do pri- 
meiro slmbolo. 

A Figura 5.20 mostra uma linha ferrea de Vitoria a Belo Horizonte, com um ramal no meio em diregao ao 
Rio de Janeiro. Cada slmbolo na formula e representado por um vagao ferroviario. O trem corre na diregao oeste 
(para a esquerda). Quando cada vagao chega ao desvio, tern de parar um pouco antes e perguntar se deve ir dire- 
to para Belo Horizonte ou desviar a rota para o Rio. Vagoes que contem variaveis sempre vao direto para Belo 
Horizonte e nunca para o Rio. Vagoes que contem todos os outros slmbolos tern de perguntar qual e o conteudo 
do vagao mais proximo na linha que vai para o Rio antes de entrar no desvio. 


Figura 5.20 


Cada vagao ferroviario representa um sfmbolo na formula a ser convertida de notacao infixa para notacao polonesa invertida. 



Os dados da Figura 5.21 mostram o que acontece, dependendo do conteudo do proximo vagao na linha 
para o Rio e do vagao que esta parado no desvio. O primeiro ± sempre vai para o Rio. Os numeros se referem as 
seguintes situagoes: 

1. O vagao que esta no desvio vai para o Rio. 

2. O vagao mais recente na linha para o Rio faz o retorno e vai para Belo Horizonte. 

3. O vagao que esta no desvio e o vagao mais recente na linha do Rio sao desviados e desaparecem (isto 
e, sao apagados). 

4. Pare. Os slmbolos agora em Belo Horizonte representam a formula em notagao polonesa invertida 
quando lida da esquerda para a direita. 

5. Pare. Houve um erro. A formula original nao foi equilibrada adequadamente. 
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Figura 5.21 


Tabela de decisao usada pelo algoritmo de notacao infixa para notacao polonesa invertida. 
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Apos a realizagao de cada agao e feita uma nova comparagao entre o vagao que esta no desvio naquele 
momento, que pode ser o mesmo da comparagao anterior ou o proximo vagao, e o ultimo na linha do Rio. O 
processo continua ate alcangar a etapa 4. Note que a linha do Rio esta sendo usada como uma pilha, sendo que 
o direcionamento de um vagao para o Rio e uma operagao de passar para a pilha, e fazer o vagao que ja esta na 
linha do Rio retornar e envia-lo para Belo Horizonte e uma operagao de tirar da pilha. 

A ordem das variaveis e a mesma na notagao infixa e na notagao polonesa invertida. A ordem dos operado- 
res, entretanto, nem sempre e a mesma. Na notagao polonesa invertida, eles aparecem na ordem em que serao 
realmente executados durante a avaliagao da expressao. A Figura 5.22 da diversos exemplos de formulas infixas 
e suas equivalentes em notagao polonesa invertida. 


Figura 5.22 


Alguns exemplos de expressoes infixas e seus equivalentes em notacao polonesa invertida. 


Notagao infixa 

Notagao polonesa invertida 

A + B x C 

A B C x + 

A x B + 0 

A B x 0 + 

A x B + C x D 

A B x C D x + 

(A + B) / (C - D) 

A B + C D - / 

A x B/C 

A B x C/ 

((A + B) x C + D) / (E + F + G) 

AB+CxD+EF+G+/ 


• Avaliacao de formulas em notacao polonesa invertida 

A notagao polonesa invertida e a ideal para avaliar formulas em um computador com uma pilha. A formula 
consiste em n slmbolos, cada um sendo um operando ou um operador. O algoritmo para avaliar uma formula em 
notagao polonesa invertida e simples. Examine a cadeia da notagao da esquerda para a direita. Quando encontrar 
um operando, passe-o para a pilha. Quando encontrar um operador, execute a instrugao correspondente. 
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A Figura 5.23 mostra a avaliagao de 
(8 + 2 x 5) / (1 +3x2-4) 

em IJVM. A formula correspondente em notagao polonesa invertida e 
8 2 5 x + 1 3 2 x + 4 - / 

Introduzimos IMUL e IDIV na figura como instrugoes de multiplicagao e divisao, respectivamente. O numero 
no topo da pilha e o operando da direita, nao o da esquerda. Esse ponto e importante para a divisao (e a subtragao), 
visto que a ordem dos operandos e significativa (diferente da adigao e da multiplicagao). Em outras palavras, IDIV foi 
cuidadosamente definida, portanto, passar primeiro numerador, depois o denominador e entao efetuar a operagao 
da o resultado correto. Note como e facil gerar codigo para IJVM com a notagao polonesa invertida: basta percorrer 
a formula em notagao polonesa invertida e extrair uma instrugao por slmbolo. Se for uma cons tan te ou variavel, pro- 
duza uma instrugao para passa-lo para a pilha. Se for um operador, produza uma instrugao para efetuar a operagao. 


Figura 5.23 


Utilizacao de uma pilha para avaliar uma formula em notacao polonesa invertida. 


Passo 

Cadeia restante 

Instrugao 

Pilha 

1 

825 x + 132 x + 4 - / 

BIPUSH 8 

8 

2 

25 x + 132 x + 4 - / 

BIPUSH 2 

8, 2 

3 

5 x + 132 x + 4 - / 

BIPUSH 5 

8, 2, 5 

4 

x + 132 x + 4 - / 

IMUL 

8, 10 

5 

+ 132 x + 4 - / 

IADD 

18 

6 

132 x+ 4-/ 

BIPUSH 1 

18, 1 

7 

32 x + 4 - / 

BIPUSH 3 

18, 1,3 

8 

2 x + 4 - / 

BIPUSH 2 

18, 1,3, 2 

9 

x + 4 - / 

IMUL 

18, 1, 6 

10 

+ 4-/ 

IADD 

18, 7 

11 

4-/ 

BIPUSH 4 

18, 7, 4 

12 

-/ 

ISUB 

18, 3 

13 

/ 

IDIV 

6 


5.4.9 Modos de enderecamento para instrucoes de desvio 

Ate aqui, examinamos apenas instrugoes que operam sobre dados. Instrugoes de desvio (e chamadas de pro- 
cedimento) tambem precisam de modos de enderegamento para especificar o enderego de destino. Os modos que 
vimos ate aqui tambem funcionam, em grande parte, para desvios. O enderegamento direto e, sem duvida, uma 
possibilidade, bastando incluir o enderego de destino completo na instrugao. 

Contudo, outros modos tambem fazem sentido. O enderegamento indireto de registrador permite que o 
programa calcule o enderego de destino, coloque-o em um registrador e entao va ate la. Esse modo da a maior 
flexibilidade, ja que o enderego de destino e calculado em tempo de execugao. Mas tambem oferece a maior opor- 
tunidade para criar bugs que sao quase imposslveis de achar. 

Outro modo razoavel e o indexado, cujo deslocamento em relagao a um registrador e uma distancia conhe- 
cida. Tern as mesmas propriedades do modo de enderegamento indireto de registrador. 

Outra opgao e o enderegamento em relagao ao PC (contador de programa). Nesse modo, o deslocamento 
(com sinal) na propria instrugao e adicionado ao contador de programa para obter o enderego de destino. Na 
verdade, esse e simplesmente o modo indexado, usando o PC como registrador. 
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5.4.10 Ortogonalidade de opcodes e modos de enderecamento 

Do ponto de vista do software, instrugoes e enderegamento deveriam ter uma estrutura regular, com um 
numero mlnimo de formatos de instrugao. Essa estrutura facilita ao compilador produzir bom codigo. Todos 
os opcodes devem permitir todos os modos de enderegamento onde quer que faga sentido. Alem do mais, todos os 
registradores devem estar disponlveis para todos os modos de registrador, incluindo o ponteiro de quadro (FP), 
o ponteiro de pilha (SP) e o contador de programa (PC). 

Como exemplo de um projeto limpo para uma maquina de tres enderegos, considere os forma tos de instru¬ 
gao de 32 bits da Figura 5.24. Sao admitidos ate 256 opcodes. No formato 1, cada instrugao tern dois registradores 
de origem e um de destino. Todas as instrugoes aritmeticas e logicas usam esse formato. 


Figura 5.24 Projeto simples para os formatos de instrucao de uma maquina de tres enderecos. 


Bits 8 

1 

5 

5 

5 

8 

OPCODE 

0 

DESTINO 

ORIGEM1 

ORIGEM2 



OPCODE 

1 

DESTINO 

ORIGEM1 

DESLOCAMENTO 


OPCODE 

DESLOCAMENTO 


O campo de 8 bits nao utilizado da extremidade pode ser usado ainda para diferenciar a instrugao. Por exem¬ 
plo, um opcode poderia ser alocado para todas as operagoes de ponto flutuante, usando o campo extra para fazer 
a distingao entre elas. Alem disso, se o bit 23 estiver marcado, o formato 2 e usado e o segundo operando nao e 
mais um registrador, mas uma constante imediata de 13 bits, com sinal. As instrugoes LOAD e STORE tambem 
podem usar esse formato para referenciar memoria no modo indexado. 

E preciso uma pequena quantidade de instrugoes adicionais, como desvios condicionais, mas elas poderiam 
se ajustar com facilidade ao formato 3. Por exemplo, um opcode poderia ser designado a cada desvio (condicional), 
chamada de procedimento etc., deixando 24 bits para um deslocamento em relagao ao PC. Admitindo que esse 
deslocamento seja contado em palavras, a faixa seria ±32 MB. Alem disso, alguns opcodes poderiam ser reservados 
para instrugoes LOAD e STORE, que precisam dos deslocamentos longos do formato 3. Eles nao seriam totalmente 
gerais (por exemplo, apenas R0 poderia ser carregado ou armazenado), porem, seu uso seria muito raro. 

Agora, considere um projeto para uma maquina de dois enderegos que pode usar uma palavra de memoria 
para qualquer um dos operandos. O projeto e mostrado na Figura 5.25. Essa maquina pode somar uma palavra 
de memoria a um registrador, somar um registrador a uma palavra de memoria, somar um registrador a outro 
ou somar uma palavra de memoria a outra. Hoje, os acessos a memoria sao relativamente caros, portanto, esse 
projeto ainda nao e popular, mas, se os progressos na tecnologia de cache ou memoria tornarem os acessos a 
memoria baratos no futuro, produzir codigo para esse projeto sera particularmente facil e eficiente. O PDP-11 e 
o VAX foram maquinas que alcangaram imenso sucesso e dominaram o mundo dos minicomputadores durante 
duas decadas usando projetos semelhantes a esse. 

Nesse projeto temos, mais uma vez, um opcode de 8 bits, mas agora temos 12 bits para especificar a origem 
e 12 bits para especificar o destino. Para cada operando, 3 bits dao o modo, 5 bits dao o registrador e 4 bits dao 
o deslocamento. Com 3 bits de modo podemos suportar modos imediato, direto, registrador, indireto de registra¬ 
dor, indexado e de pilha, e ainda sobra espago para dois modos futuros. Esse projeto e limpo e regular, facil de 
compilar, alem de ser bastante flexlvel, em especial se o contador de programa, o ponteiro de pilha e o ponteiro 
de variavel local estiverem entre os registradores gerais que podem ser acessados pelo modo normal. 
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Figura 5.25 Projeto simples para os formatos de instrucao de uma maquina de dois enderecos. 
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O unico problema e que, para enderegamento direto, precisamos de mais bits para o enderego. A solugao 
adotada pelo PDP-11 e o VAX foi adicionar uma palavra extra a instrugao para o enderego de cada operando 
enderegado diretamente. Tambem poderlamos usar um de dois modos de enderegamento disponlveis em lugar de 
um modo indexado com um deslocamento de 32 bits apos a instrugao. Assim, na pior das hipoteses, por exemplo, 
um ADD de memoria para memoria cujos dois operandos fossem enderegados diretamente, ou utilizassem uma 
forma indexada longa, teria 96 bits de comprimento e usaria tres ciclos de barramento (um para a instrugao, dois 
para seus enderegos). Alem disso, tres outros ciclos seriam necessarios para buscar os dois operandos e escrever 
o resultado. Por outro lado, a maioria dos projetos RISC exigiria no mlnimo 96 bits, talvez mais, para somar uma 
palavra qualquer na memoria com outra, e usaria no mlnimo quatro ciclos de barramento, dependendo de como 
os operandos fossem enderegados. 

Ha muitas alternativas posslveis para a Figura 5.25. Nesse projeto, e posslvel executar a declaragao 

i = j; 

em uma instrugao de 32 bits, contanto que ambas, i e j, estejam entre as 16 primeiras variaveis locais. Por outro 
lado, para variaveis alem de 16, temos de ir a deslocamentos de 32 bits. Uma opgao seria outro formato com um 
unico deslocamento de 8 bits em vez de dois de 4 bits, mais uma regra informando que a origem ou o destino 
poderiam usa-lo, mas nao ambos. As possibilidades e compromissos sao ilimitados, e os projetistas de maquinas 
devem jogar com muitos fa tores para obter um bom resultado. 

5.4.11 Modos de enderecamento do Core i7 

Os modos de enderegamento do Core i7 sao muito irregulares e diferentes dependendo de determinada 
instrugao estar em modo de 16, 32 ou 64 bits. Vamos ignorar os modos de 16 e 64 bits; o modo de 32 bits ja 
e ruim o suficiente. Os modos suportados sao imediato, direto, registrador, indireto de registrador, indexado e 
um especial para enderegar elementos de vetores. O problema e que nem todos os modos se aplicam a todas as 
instrugoes e nem todos os registradores podem ser usados em todos os modos. Isso dificulta muito mais a tarefa 
do escritor de compilador e resulta em codigo pior. 

O byte MODE da Figura 5.13 controla os modos de enderegamento. Um dos operandos e especificado pela 
combinagao dos campos MOD e R/M. O outro e sempre um registrador e e dado pelo valor do campo REG. As 32 
combinagoes que podem ser especificadas pelo campo MOD de 2 bits e pelo campo R/M de 3 bits estao relacio- 
nadas na Figura 5.26. Se ambos os campos forem zero, por exemplo, o operando e lido do enderego de memoria 
contido no registrador EAX. 

As colunas 01 e 10 envolvem modos nos quais um registrador e somado a um deslocamento de 8 ou 32 bits 
que vem apos a instrugao. Se for selecionado um deslocamento de 8 bits, antes de ser somado ele e estendido em 
sinal para 32 bits. Por exemplo, uma instrugao ADD com R/M = 011, MOD = 01 e um deslocamento de 6 calcula 
a soma EBX + 6 e le a palavra de memoria naquele enderego para um dos operandos. EBX nao e modificado. 

A coluna MOD = 11 oferece uma opgao de dois registradores. Para instrugoes de palavra, e usada a primeira 
opgao; para instrugoes de bytes, e usada a segunda. Observe que a tabela nao e totalmente regular. Por exemplo, 
nao ha nenhum modo de enderegar indiretamente por EBP e nenhum modo de ter deslocamento em relagao a ESP. 
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Figura 5.26 Modos de enderecamento de 32 bits do Core i7. M[x] e a palavra de memoria em x. 
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Em alguns modos, um byte adicional denominado SIB (Scale, Index, Base - escala, Indice, base) vem logo 
apos o byte MODE (veja a Figura 5.13). O byte SIB especifica um fator de escala, bem como dois registradores. 
Quando um byte SIB esta presente, o enderego do operando e calculado multiplicando o registrador de Indice por 
1, 2, 4 ou 8 (dependendo de SCALE), somando-o ao registrador de base e, por fim, somando um deslocamento de 
8 ou 32 bits, dependendo de MOD. Quase todos os registradores podem ser usados como indice ou base. 

Os modos SIB sao uteis para acessar elementos de vetores. Por exemplo, considere a declaragao Java 

for (i = 0; i < n; i++) a[i] = 0; 

em que a e um vetor de inteiros de 4 bytes local ao procedimento corrente. De modo geral, o EBP e usado para 
apontar para a base do quadro de pilha que contem as variaveis locais e vetores, como mostra a Figura 5.27. O 
compilador poderia manter i em EAX. Para acessar a[i], ele usaria um modo SIB cujo enderego de operando fosse 
a soma de 4 x EAX, EBP e 8. Essa instrugao poderia armazenar em a[i\ com uma unica instrugao. 


Figura 5.27 
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Esse modo vale a pena? Diflcil dizer. Nao ha duvida de que essa instrugao, usada de modo adequado, eco- 
nomiza alguns ciclos. A frequencia com que e usada depende do compilador e da aplicagao. O problema e que 
ela ocupa certa quantidade de area de chip que poderia ter sido usada de um modo diferente se essa instrugao 
nao estivesse presente. Por exemplo, a cache de nivel 1 poderia ser maior, ou o chip poderia ser menor, o que 
permitiria talvez uma velocidade de clock ligeiramente mais alta. 

Esses sao os tipos de compromissos que os projetistas enfrentam constantemente. Em geral, sao realizadas 
extensivas simulagoes de execugao antes de moldar qualquer coisa em sillcio, mas tais simulagoes exigem que se 
tenha uma boa ideia da posslvel carga de trabalho. Apostar que os projetistas do 8088 nao inclulram um navega- 
dor Web em seu conjunto de teste e ganhar na certa. Ainda assim, um grande numero de descendentes daquele 
produto agora e usado principalmente para navegar na Web, portanto, as decisoes tomadas ha 20 anos podem 
estar de todo erradas para as aplicagoes atuais. Todavia, em nome da compatibilidade, uma vez que uma caracte- 
rlstica entra no chip, e imposslvel tira-la. 

5.4.12 Modos de enderecamento da CPU ARM do OMAP4430 

No OMAP4430, todas as instrugoes usam enderegamento imediato ou de modo registrador, exceto as que 
enderegam a memoria. Para o modo registrador, os 5 bits apenas informam qual registrador usar. Para o modo 
imediato, uma constante de 12 bits (sem sinal) fornece os dados. Nao ha nenhum outro modo presente para as 
instrugoes aritmeticas, logicas e similares. 

Dois tipos de instrugoes enderegam a memoria: cargas (LDR) e armazenamentos (STR). Instrugoes LDR e 
STR tern tres modos para enderegar a memoria. O primeiro calcula a soma de dois registradores e enderega 
indiretamente por ela. O segundo calcula o enderego como a soma de um registrador de base e um desloca- 
mento de 13 bits com sinal. O terceiro calcula um enderego igual ao contador de programa (PC) mais um 
deslocamento de 13 bits com sinal. Esse terceiro modo, chamado enderegamento relativo ao PC, e util para 
carregar constantes do programa que estao armazenadas com o codigo do programa. 


5.4.13 Modos de enderecamento da AVR do ATmegal 68 

O ATmegal68 tern uma estrutura de enderegamento razoavelmente regular. Ha quatro modos basicos. O 
primeiro e o modo de registrador, no qual o operando esta em um registrador. Registradores podem ser usados 
como origens e destinos. O segundo e o modo imediato, em que um valor imediato de 8 bits sem sinal pode ser 
codificado em uma instrugao. 

Os modos restantes sao usaveis apenas por instrugoes de carga e armazenamento. O terceiro modo e o 
enderegamento direto, no qual o operando esta na memoria em um enderego contido na propria instrugao. Para 
instrugoes de 16 bits, o enderego direto e limitado a 7 bits (assim, so os enderegos de 0 a 127 podem ser carrega- 
dos). A arquitetura AVR tambem define uma instrugao de 32 bits, que acomoda um enderego direto de 16 bits, 
admitindo ate 64 KB de memoria. 

O quarto modo e o indireto de registrador, no qual um registrador contem um ponteiro para o operando. 
Como registradores normais tern 8 bits de largura, instrugoes de carga e armazenamento usam pares de registra¬ 
dores para expressar um enderego de 16 bits. Um par pode enderegar ate 64 KB de memoria. A arquitetura admite 
o uso de tres pares de registradores: X, Y e Z, que sao formados a partir dos pares R26/R27, R28/R29 e R30/R31, 
respectivamente. Para carregar um enderego no registrador X, por exemplo, o programa teria de carregar um valor 
de 8 bits nos registradores R26 e R27, usando duas instrugoes de carga. 


5.4.14 Discussdo de modos de enderecamento 

Neste ponto, ja estudamos diversos modos de enderegamento. Os usados pelo Core i7, OMAP4430 e 
ATmegal68 estao resumidos na Figura 5.28. Todavia, como ja dissemos, nem todo modo pode ser usado em 
toda instrugao. 
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Figura 5.28 Comparacao entre modos de enderecamento. 



Na pratica, nao sao necessarios muitos modos de enderegamento para uma ISA eficaz. Visto que, hoje, a 
maioria dos codigos escritos nesse nlvel sera gerada por compiladores (com a posslvel excegao do ATmegal68), 
o aspecto mais importante dos modos de enderegamento de uma arquitetura e que haja poucas opgoes e que elas 
sejam claras, com custos (em termos de tempo de execugao e tamanho de codigo) que possam ser calculados ime- 
diatamente. Em geral, isso significa que uma maquina deve adotar uma posigao extrema: ou deve oferecer todas 
as opgoes posslveis ou apenas uma. Qualquer coisa entre essas duas significa que o compilador tera de decidir 
entre opgoes sem ter o conhecimento ou a sofisticagao suficiente para faze-lo. 

Assim, as arquiteturas mais limpas em geral tern somente um numero muito pequeno de modos de enderega¬ 
mento, com limitagoes estritas a sua utilizagao. Na pratica, ter os modos imediato, direto, registrador e indexado cos- 
tuma ser suficiente para quase todas as aplicagoes. Alem disso, todo registrador (incluindo ponteiro de variavel local, 
ponteiro de pilha e contador de programa) deve ser usavel onde quer que haja necessidade de um registrador. Modos 
de enderegamento mais complicados conseguem reduzir o numero de instrugoes, porem, a custa da introdugao de 
sequencias de operagoes que nao podem ser facilmente executadas em paralelo com outras operagoes sequenciais. 

Agora, conclulmos nosso estudo dos varios compromissos posslveis entre opcodes e enderegos e varias for¬ 
mas de enderegamento. Quando voce abordar um novo computador, deve examinar as instrugoes e os modos de 
enderegamento nao apenas para verificar quais estao disponlveis, mas tambem para entender por que essas opgoes 
foram escolhidas e quais teriam sido as consequencias de opgoes alternativas. 


5.5 Tipos de instrucao 

Instrugoes de nlvel ISA podem ser divididas em cerca de meia duzia de grupos que guardam relativa seme- 
lhanga de uma maquina para outra, ainda que possam ser diferentes nos detalhes. Todo computador tern algumas 
instrugoes fora do comum, acrescentadas para manter a compatibilidade com modelos anteriores, ou porque o 
arquiteto teve uma ideia brilhante, ou talvez porque uma agencia do governo pagou a um fabricante para inclul-las. 
Logo adiante, tentaremos abranger todas as categorias mais comuns, sem que isso signifique que seremos completos. 

5.5.1 Instrucoes para movimento de dados 

Copiar dados de um lugar para outro e a mais fundamental de todas as operagoes. Por copiar queremos 
dizer a criagao de um novo objeto, com padrao de bits identico ao original. Esse uso da palavra “movimento”, 
ou “mudanga”, e um pouco diferente de sua utilizagao em linguagem corrente. Quando dizemos que Mario se 
mudou do Rio de Janeiro para Sao Paulo, isso nao significa que tenha sido criada uma copia identica de Mario 
em Sao Paulo e que o original ainda esteja no Rio. Quando dizemos que o conteudo do local de memoria 2000 
“foi mudado” ou “foi movido” para algum registrador, isso sempre significa que uma copia identica foi criada no 
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registrador e que o original continua intocavel no local 2000. Um nome melhor para instrugoes de movimento de 
dados seria instrugoes de “duplicagao de dados”, mas o termo “movimento de dados” ja esta consagrado. 

Ha duas razoes por que dados podem ser copiados de um local para outro. Uma e fundamental: a atribuigao 
de valores a variaveis. A atribuigao 

A = B 

e efetuada com a copia do valor que esta no enderego de memoria B para o local A porque o programador disse que e 
para fazer isso. A segunda razao para copiar dados e representa-los para acesso e utilizagao eficientes. Como ja vimos, 
muitas instrugoes so podem acessar variaveis quando estas estao disponlveis em registradores. Uma vez que ha duas 
fontes posslveis para um item de dado (memoria ou registrador) e que ha dois destinos posslveis para um item de 
dado (memoria ou registrador), ha quatro tipos diferentes posslveis de copia. Alguns computadores tern quatro 
instrugoes para os quatro casos. Outros tern uma unica instrugao para todos os quatro casos. Ha outros ainda que 
usam LOAD para ir da memoria ate um registrador, STORE para ir de um registrador ate a memoria, MOVE para ir 
de um registrador ate outro registrador e nenhuma instrugao para uma copia de memoria para memoria. 

Instrugoes de movimento de dados devem indicar, de alguma forma, a quantidade de dados a ser movida. Em 
algumas ISAs, existem instrugoes para mover quantidades variaveis de dados que vao de 1 bit ate a memoria inteira. 
Em maquinas de comprimento de palavra fixo, a quantidade a ser movida muitas vezes e exatamente uma palavra. 
Qualquer coisa a mais ou a menos deve ser executada por uma rotina de software que usa deslocamento e jungao. 
Algumas ISAs fornecem capacidade adicional para copiar menos do que uma palavra (normalmente em incrementos 
de bytes) e para copiar varias palavras. Copiar varias palavras e complicado, em particular se o numero maximo for 
grande, porque tal operagao as vezes gasta muito tempo e pode ter de ser interrompida no meio. Algumas maquinas 
de comprimento de palavra variavel tern instrugoes que especificam apenas enderegos de origem e destino, mas nao 
a quantidade. O movimento continua ate que seja encontrado, nos dados, um campo de final de dado. 

5.5.2 Operates diadicas 

Operagoes diadicas sao as que combinam dois operandos para produzir um resultado. Todas as ISAs tern 
instrugoes para efetuar adigao e subtragao de inteiros. A multiplicagao e a divisao de inteiros tambem sao quase 
um padrao. Achamos desnecessario explicar por que computadores sao equipados com instrugoes aritmeticas. 

Outro grupo de operagoes diadicas inclui as instrugoes booleanas. Embora existam 16 fungoes booleanas de 
duas variaveis, poucas maquinas tern instrugoes para todas as 16, se e que alguma tern. Em geral, estao presentes 
as operagoes AND, OR e NOT; as vezes, tambem aparecem as operagoes EXCLUSIVE OR, NOR e NAND. 

Uma utilizagao importante da operagao AND e extrair bits de palavras. Considere, por exemplo, uma maqui- 
na com palavras de 32 bits de comprimento, na qual estao armazenados quatro caracteres de 8 bits por palavra. 
Suponha que seja necessario separar o segundo caractere dos outros tres para imprimi-lo; quer dizer, e necessa- 
rio criar uma palavra que contenha aquele caractere nos 8 bits da extrema direita, conhecida como justificada a 
direita, com zeros nos 24 bits da extrema esquerda. 

Para extrair o caractere, a palavra que o contem passa por uma operagao AND com uma constante denomi- 
nada mascara. O resultado dessa operagao e que os bits indesejados sao todos alterados para zeros - isto e, sao 
mascarados, como mostramos a seguir. 

10110111 10111100 11011011 10001011 A 

00000000 11111111 00000000 00000000 B (mascara) 

00000000 10111100 00000000 00000000 A AND B 

Em seguida, o resultado seria deslocado 16 bits para a direita para isolar o caractere a ser extraldo na extremidade 
direita da palavra. 

Uma utilizagao importante da operagao OR e empacotar bits em uma palavra, em que empacotar significa o 
inverso de extrair. Para alterar os 8 bits da extrema direita de uma palavra de 32 bits sem mexer nos outros 24 
bits, primeiro os 8 bits indesejados sao mascarados e entao o novo caractere passa por uma operagao OR, como 
mostramos a seguir. 
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10110111 10111100 11011011 10001011 
11111111 11111111 11111111 00000000 
10110111 10111100 11011011 00000000 
00000000 00000000 00000000 01010111 
10110111 10111100 11011011 01010111 


A 

B (mascara) 

A AND B 

C 

(A AND B) OR C 


A operagao AND tende a remover os bits 1, porque nunca ha uma quantidade maior do que 1 no resultado 
do que em qualquer dos operandos. A operagao OR tende a inserir 1 porque sempre ha no mlnimo tantos bits 
1 no resultado quanto no operando que tiver o maior numero de bits 1. A operagao EXCLUSIVE OR, por outro 
lado, e simetrica, e tende, na media, nem a inserir nem a remover os bits 1. Essa simetria em relagao a 1 e 0 e util 
ocasionalmente, por exemplo, na geragao de numeros aleatorios. 

Hoje, a maioria dos computadores tambem admite um conjunto de instrugoes de ponto flutuante que corres- 
pondem mais ou menos a operagoes aritmeticas com inteiros. Grande parte das maquinas oferece ao menos dois 
comprimentos de numeros de ponto flutuante, os mais curtos para ganhar em velocidade e os mais longos para 
ocasioes em que a maior precisao e necessaria. Embora haja muitas variagoes posslveis para formatos de ponto 
flutuante, agora um unico padrao e adotado quase universalmente: IEEE 754. Numeros de ponto flutuante e IEEE 
754 serao discutidos no Apendice B. 


5.5.3 Operates monadicas 

Operagoes monadicas tern um so operando e produzem um so resultado. Como e preciso especificar um 
enderego a menos do que para uma operagao diadica, as vezes as instrugoes sao mais curtas, embora seja comum 
ter de especificar outras informagoes. 

Instrugoes para deslocar ou rodar o conteudo de uma palavra ou byte sao bastante uteis e costumam ser 
fornecidas em diversas variagoes. Deslocamentos sao operagoes nas quais os bits sao movidos para a esquerda ou 
para a direita, com bits que sao empurrados para fora na extremidade da palavra e, portanto, perdidos. Rotagoes 
sao deslocamentos nos quais os bits empurrados para fora por uma extremidade reaparecem na outra. A diferenga 
entre um deslocamento e uma rotagao e ilustrada a seguir. 

00000000 00000000 00000000 01110011 A 

00000000 00000000 00000000 00011100 A deslocado 2 bits para a direita 

11000000 00000000 00000000 00011100 A rodado 2 bits para a direita 

Deslocamentos e rotagoes para a esquerda e para a direita sao ambos uteis. Se uma palavra de n bits for rodada k 
bits para a esquerda, o resultado sera o mesmo caso ela tivesse sido rodada n - k bits para a direita. 

Deslocamentos para a direita costumam ser executados com extensao de sinal, o que significa que posigoes 
desocupadas na extremidade esquerda da palavra sao preenchidas com o bit de sinal original, 0 ou 1. E como se o 
bit de sinal fosse arrastado para a direita. Entre outras coisas, isso significa que um numero negativo continuara 
negativo. Essa situagao e ilustrada a seguir para deslocamentos de 2 bits para a direita. 

11111111 11111111 11111111 11110000 A 

00111111 11111111 11111111 11111100 A deslocado sem extensao de sinal 

11111111 11111111 11111111 11111100 A deslocado com extensao de sinal 

Uma utilizagao importante do deslocamento e na multiplicagao e na divisao por potencias de 2. Se um 
inteiro positivo for deslocado para a esquerda k bits, o resultado, a nao ser que haja transbordo (overflow), e o 
numero original multiplicado por 2\ Se um inteiro positivo for deslocado k bits para a direita, o resultado e o nume¬ 
ro original dividido por 2\ 

O deslocamento pode ser usado para acelerar certas operagoes aritmeticas. Considere, por exemplo, calcular 18 x 
n para algum inteiro positivo n. Como 18 x n=16xn + 2xn, 16xn pode ser obtido deslocando uma copia de n 4 
bits para a esquerda. 2 x n pode ser obtido deslocando n 1 bit para a esquerda. A soma desses dois numeros e 18 x n. 
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A multiplicagao foi efetuada por um movimento, dois deslocamentos e uma adigao, o que costuma ser mais rapido do 
que uma multiplicagao. E claro que o compilador so pode usar esse estratagema quando um fa tor for uma cons tan te. 

Todavia, deslocar numeros negativos, mesmo com extensao de sinal, da resultados bem diferentes. Considere, 
por exemplo, o numero de complemento de um, -1. Se deslocado 1 bit para a direita, ele gera -3. Outro desloca- 
mento de 1 bit para a esquerda gera -7: 

11111111 11111111 11111111 11111110 -1 em complemento de um 

11111111 11111111 11111111 11111100 -1 deslocado 1 bit para a esquerda = -3 

11111111 11111111 11111111 11111000 -1 deslocado 2 bits para a esquerda = -7 

Deslocar numeros negativos para a esquerda em complemento de um nao permite a multiplicagao por 2. No 
entanto, deslocar para a direita Simula corretamente a divisao. 

Agora, considere uma representagao em complemento de dois do numero -1. Quando deslocado 6 bits para 
a direita com extensao de sinal, ele gera -1, o que e incorreto porque a parte inteira de -1/64 e 0: 

11111111 11111111 11111111 11111111 -1 em complemento de dois 

11111111 11111111 11111111 11111111 -1 deslocado 6 bits para a direita = -1 

Em geral, o deslocamento para a direita introduz erros porque trunca para menos (em diregao ao inteiro mais 
negativo), o que e incorreto na aritmetica de inteiros para numeros negativos. O deslocamento para a esquerda, 
entretanto, Simula a multiplicagao por 2. 

Operagoes de rotagao sao uteis para empacotar e desempacotar sequencias de bits de palavras. Se quisermos 
testar todos os bits em uma palavra, rodar a palavra 1 bit por vez para qualquer lado sucessivamente coloca cada bit 
no bit de sinal, onde ele pode ser testado com facilidade, e tambem restaura a palavra a seu valor original quando 
todos os bits tiverem sido testados. Operagoes de rotagao sao mais puras do que operagoes de deslocamento porque 
nenhuma informagao e perdida: uma operagao de rotagao qualquer pode ser desfeita com outra operagao de rotagao. 

Certas operagoes diadicas ocorrem com tanta frequencia com determinados operandos que, as vezes, as ISAs 
tern operagoes monadicas para efetua-las rapidamente. Mover zero para uma palavra de memoria ou registrador 
e extremamente comum na inicializagao de um calculo. Claro que mover zero e um caso especial das instrugoes 
gerais de movimento de dados. Por questao de eficiencia, muitas vezes e fornecida uma operagao CLR com um 
unico enderego: o local a ser apagado, isto e, definido como zero. 

A operagao de somar 1 a uma palavra tambem e comumente usada para contagem. Uma forma monadica da 
instrugao ADD e a operagao INC, que soma 1. A operagao NEG e outro exemplo. Negar X e, na verdade, calcular 
0 - X, uma subtragao diadica; porem, mais uma vez, por causa de sua utilizagao frequente, as vezes e fornecida uma 
instrugao NEG separada. Nesse caso, e importante observar a diferenga entre a operagao aritmetica NEG e a operagao 
logica NOT. A operagao NEG produz o inverso aditivo de um numero (o numero que, quando somado ao original, da 
0). A operagao NOT simplesmente inverte todos os bits individual na palavra. As operagoes sao muito similares e, na 
verdade, para um sistema que usa representagao de complemento de um, elas sao identicas. (Em aritmetica de com¬ 
plemento de dois, a instrugao NEG e executada primeiro invertendo todos os bits individual, e entao somando 1.) 

Instrugoes diadicas e monadicas costumam ser agrupadas conforme sua utilizagao, em vez de pelo numero 
de operandos que requerem. Um grupo abrange operagoes aritmeticas, incluindo negagao. O outro grupo inclui 
operagoes logicas e deslocamento, visto que essas duas categorias na maioria das vezes sao usadas em conjunto 
para realizar extragao de dados. 

5.5.4 Comparacoes e desvios condicionais 

Quase todos os programas precisam da capacidade de testar seus dados e alterar a sequencia de instrugoes a 
ser executada com base nos resultados. Um exemplo e a fungao raiz quadrada, VAT Se x for negativo, o procedi- 
mento emite uma mensagem de erro; caso contrario, calcula a raiz quadrada. Uma fungao sqrt tern de testar x e 
em seguida desviar, dependendo de ele ser negativo ou nao. 

Um metodo comum para fazer isso e providenciar instrugoes de desvio condicional que testam alguma 
condigao e desviam para um determinado enderego de memoria se a condigao for cumprida. As vezes, um bit na 
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instrugao indica se o desvio deve ocorrer se a condigao for cumprida ou se a condigao nao for cumprida, respec- 
tivamente. Muitas vezes, o enderego de destino nao e absoluto, mas relativo a instrugao corrente. 

A condigao mais comum a ser testada e se um determinado bit na maquina e 0 ou nao. Se uma instrugao 
testar o bit de sinal de um numero e desviar para ROTULO se ele for 1, as declaragoes que comegam em ROTULO 
serao executadas se o numero for negativo, e as declaragoes que vem apos o desvio condicional serao executadas 
se o numero for 0 ou positivo. 

Muitas maquinas tern bits de codigo de condigao que sao usados para indicar condigoes especlficas. Por 
exemplo, pode haver um bit de transbordo que e marcado em 1 sempre que uma operagao aritmetica der um 
resultado incorreto. Testando esse bit, verificamos o transbordo na operagao aritmetica anterior, de modo que, se 
ocorreu um transbordo, pode-se fazer um desvio para uma rotina de erro e executar agoes corretivas. 

De modo semelhante, alguns processadores tern um bit de vai-um que e marcado quando um vai-um trans- 
borda para o bit da extrema esquerda, por exemplo, se dois numeros negativos forem somados. Um vai-um do bit 
da extrema esquerda e bem normal e nao deve ser confundido com um transbordo. Testar o bit de vai-um e neces- 
sario para a aritmetica de precisao multipla (isto e, quando um inteiro e representado por duas ou mais palavras). 

Testar o valor zero e importante para lagos e muitas outras finalidades. Se todas as instrugoes de desvio con¬ 
dicional testarem somente 1 bit, testar uma determinada palavra para 0 precisaria de um teste separado para cada 
bit para garantir que nenhum era um 1. Para evitar essa situagao, muitas maquinas tern uma instrugao para testar 
uma palavra e desviar se ela for zero. E claro que essa solugao apenas passa a responsabilidade para a microarqui- 
tetura. Na pratica, o hardware contem um registrador cujos bits passam todos por uma operagao OR para dar um 
unico bit que informa se o registrador contem quaisquer bits 1. O bit Z na Figura 4.1 normalmente seria calculado 
por uma operagao OR com todos os bits de salda da ULA e entao se inverteria o resultado. 

Comparar duas palavras ou caracteres para ver se sao iguais, ou, se nao forem, qual deles e maior, tambem 
e importante, por exemplo, na classificagao. Para executar esse teste, sao necessarios tres enderegos: dois para os 
itens de dados e um para o enderego para onde desviar se a condigao for verdadeira. Computadores cujo forma to 
de instrugao permite tres enderegos por instrugao nao tern problema algum, mas os que nao tern esse formato de 
instrugao devem fazer alguma coisa para contornar esse problema. 

Uma solugao comum e fornecer uma instrugao que faz uma comparagao e ajusta um ou mais bits de condigao 
para registrar o resultado. Uma instrugao subsequente pode testar os bits de condigao e desviar se os dois valores 
comparados forem iguais, ou diferentes, ou se o primeiro for maior e assim por diante. O Core i7, a CPU ARM 
do OMAP4430 e a CPU AVR do ATmegal68 usam essa tecnica. 

Ha alguns pontos sutis envolvidos na comparagao de dois numeros. Por exemplo, comparagao nao e tao 
simples quanto a subtragao. Se um numero positivo muito grande for comparado com um numero negativo 
muito grande, a subtragao resultara em transbordo, ja que o resultado da subtragao nao pode ser representado. 
Ainda assim, a instrugao de comparagao deve determinar se o teste especificado foi satisfeito e retornar a resposta 
correta - nao ha transbordo algum em comparagoes. 

Outro ponto sutil em relagao a comparagao de numeros e decidir se os numeros devem ser ou nao considerados 
com sinal. Numeros binarios de tres bits podem ser ordenados conforme um de dois modos. Do menor para o maior: 

Sem sinal Com sinal 


000 


100 (o menor) 


001 


101 


010 


110 


Oil 


111 


100 


000 


101 


001 


110 


010 


111 


011 


(o maior) 



Caphulo 5 • 0 nivel de arquitetura do conjunto de instrucao 


309 


A coluna da esquerda mostra os inteiros positivos de 0 a 7 em ordem crescente. A coluna da direita mostra 
os inteiros com sinal de -4 a +3 em complemento de dois. A resposta a pergunta “Oil e maior do que 100?” 
depende de considerar ou nao que os numeros tern sinal. A maioria das ISAs tern instrugoes para tratar ambas 
as ordenagoes. 

5.5.5 Instrucoes de chamada de procedimento 

Um procedimento e um grupo de instrugoes que realiza alguma tarefa e pode ser invocado (chamado) de 
diversas partes do programa. O termo sub-rotina muitas vezes e usado em vez de procedimento, em especial quando 
se refere a programas em linguagem de montagem. Em C, procedimentos sao denominados fungoes, embora nao sejam 
necessariamente fungoes no sentido matematico. Em Java, o termo usado e metodo. Quando o procedimento conclui 
sua tarefa, deve retornar a declaragao apos a chamada. Portanto, o enderego de retorno deve ser transmitido ao pro¬ 
cedimento ou salvo em algum lugar de modo que possa ser localizado quando for hora de retornar. 

O enderego de retorno pode ser colocado em qualquer um de tres lugares: na memoria, em um registrador ou na 
pilha. A pior solugao e, de longe, mas muito longe, coloca-lo em um unico local de memoria fixa. Nesse esquema, se 
o procedimento chamou outro, a segunda chamada faria com que o enderego de retorno da primeira fosse perdido. 

Uma pequena melhoria e fazer a instrugao de chamada de procedimento armazenar o enderego de retorno na 
primeira palavra do procedimento, sendo a primeira instrugao executavel a segunda palavra. Entao, o procedimento 
pode retornar desviando indiretamente para a primeira palavra ou, se o hardware colocar o opcode para desvio na 
primeira palavra junto com o enderego de retorno, desviando diretamente para ele. O procedimento pode chamar 
outros procedimentos porque cada um tern espago para um enderego de retorno. Se o procedimento chamar a si pro- 
prio, esse esquema falha, porque o primeiro enderego de retorno sera destruldo pela segunda chamada. A capacidade 
de um procedimento de chamar a si mesmo, denominada recursao, e de extrema importancia para programadores 
praticos, bem como teoricos. Alem do mais, se o procedimento A chamar o procedimento B, o procedimento B cha¬ 
mar o procedimento C, e o procedimento C chamar o procedimento A (recursao indireta ou em serie - daisy-chain ), 
esse esquema tambem falha. O esquema para armazenar o enderego de retorno na primeira palavra de um procedi¬ 
mento foi usado no CDC 6600, o computador mais rapido do mundo durante grande parte da decada de 1960. A 
principal linguagem usada no 6600 era FORTRAN, que proibia a recursao, de modo que funcionava na epoca. Mas 
essa foi, e ainda e, uma ideia terrivel. 

Uma melhoria maior e a instrugao de chamada de procedimento colocar o enderego de retorno em um regis¬ 
trador, deixando ao procedimento a responsabilidade de armazena-lo em um lugar seguro. Se o procedimento for 
recursivo, tera de colocar o enderego de retorno em um lugar diferente cada vez que for chamado. 

A melhor coisa para a instrugao de chamada de procedimento fazer com o enderego de retorno e passa-lo 
para uma pilha. Quando o procedimento concluir, ele retira o enderego de retorno da pilha e o coloca no conta- 
dor de programa. Se essa forma de chamada de procedimento estiver disponlvel, a recursao nao causa nenhum 
problema especial; o enderego de retorno sera automaticamente salvo de um modo tal que impega a destruigao 
de enderegos de retorno anteriores. A recursao funciona muito bem sob essas condigoes. Vimos essa forma de 
salvar o enderego de retorno em IJVM na Figura 4.12. 

5.5.6 Controle de laco 

A necessidade de executar um grupo de instrugoes por um numero fixo de vezes ocorre com frequencia e, 
por isso, algumas maquinas tern instrugoes que facilitam essa operagao. Todos os esquemas envolvem um conta- 
dor que e aumentado ou reduzido de alguma constante cada vez que o lago e percorrido. O contador tambem e 
testado uma vez, cada vez que o lago e percorrido. Se certa condigao ocorrer, o lago e concluldo. 

Um metodo inicializa um contador fora do lago e entao imediatamente comega a executar o codigo do lago. 
A ultima instrugao atualiza o contador e, se a condigao de termino ainda nao estiver satisfeita, desvia de volta a 
primeira instrugao do lago. Caso contrario, ele e concluldo e passa adiante, executando a primeira instrugao apos 
o lago. Essa forma de fazer lago e caracterizada como lago do tipo “teste no final” (ou pos-teste) e e ilustrada na 
linguagem C na Figura 5.29(a). (Aqui, nao poderlamos usar Java, porque ela nao tern um comando goto.) 
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A_ 

Figura 5.29 (a) Laco do tipo "teste no final", (b) Laco do tipo "teste no inicio". 



i * 1; 

LI: primeira declaragao; 

LI: 

i = 1; 

if (i > n) goto L2; 
primeira declaragao; 


ultima declaragao; 
i = i + 1; 

if (i < n) goto LI; 

(a) 

L2: 

ultima declaragao; 
i = i + 1; 
goto LI; 

(b) 

-• 


O lago do tipo teste no final tem a seguinte propriedade: o lago sempre sera executado ao menos uma vez, 
mesmo que n seja menor ou igual a 0. Considere, como exemplo, um programa que mantem registros do pessoal 
de uma empresa. Em certo ponto, o programa esta lendo informagoes sobre determinado empregado. Ele le n, 
o numero de filhos que o empregado tem e executa um lago n vezes, uma vez para cada filho, e le o nome, sexo 
e data de aniversario da crianga, de modo que a empresa possa lhe enviar um presente, que e um dos beneflcios 
adicionais oferecidos por ela. Se o empregado nao tiver filhos, n sera 0, mas o lago ainda sera executado mais uma 
vez e enviara presentes, e dara resultado incorreto. 

A Figura 5.29(b) mostra outro modo de executar o teste, que funciona bem mesmo para n menor ou igual 
a 0. Note que o teste e diferente nos dois casos, de modo que, se uma unica instrugao ISA fizer o incremento e 
tambem o teste, os projetistas sao forgados a escolher um metodo ou o outro. 

Considere o codigo que deveria ser produzido para a declaragao 

for (i = 0; i < n; i++) { declaragoes } 

Se o compilador nao tiver nenhuma informagao sobre n, tera de utilizar o metodo da Figura 5.29(b) para tratar 
corretamente do caso de n < 0. Contudo, se o compilador puder determinar que n > 0, por exemplo, verificando 
onde n e atribuldo, poderia usar o codigo melhor da Figura 5.29(a). O padrao FORTRAN antes afirmava que 
todos os lagos deveriam ser executados uma vez, para permitir que o codigo mais eficiente da Figura 5.29(a) fosse 
gerado todas as vezes. Esse defeito foi corrigido em 1977, quando ate mesmo a comunidade FORTRAN comegou a 
perceber que ter uma declaragao de lago com semantica esquisita que as vezes dava a resposta errada nao era uma 
boa ideia, ainda que economizasse uma instrugao de desvio por lago. C e Java sempre fizeram isso corretamente. 

5.5.7 Entrada/Saida 

Nenhum outro grupo de instrugoes exibe tanta variedade entre maquinas quanto as instrugoes de E/S. Ha 
tres esquemas diferentes de E/S em uso corrente em computadores pessoais. Sao eles: 

1. E/S programada com espera ocupada. 

2. E/S por interrupgao. 

3. E/S por DMA. 

Agora, discutiremos cada um deles. 

O metodo de E/S mais simples posslvel e a E/S programada, que e mais usada em microprocessadores de 
baixa tecnologia, por exemplo, em sistemas embutidos ou em sistemas que tem de responder rapidamente a 
mudangas externas (sistemas de tempo real). Essas CPUs costumam ter uma unica instrugao de entrada e uma 
unica instrugao de salda. Cada uma das instrugoes seleciona um dos dispositivos de E/S. Um unico caractere e 
transferido entre um registrador fixo no processador e o dispositivo de E/S selecionado. O processador deve exe¬ 
cutar uma sequencia expllcita de instrugoes para todo e qualquer caractere lido ou escrito. 
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Como um exemplo simples desse metodo, considere um terminal com quatro registradores de 1 byte, como 
mostra a Figura 5.30. Dois registradores sao usados para entrada, um de estado e um de dados, e dois para salda, 
tambem um para estado um para dados. Cada um tern um enderego exclusivo. Se a E/S usada for do tipo mapea- 
da para a memoria, todos os quatro registradores sao parte do espago de enderego da memoria do computador e 
podem ser lidos e escritos usando instrugoes comuns. Caso contrario, sao fornecidas instrugoes especiais de E/S, 
por exemplo, IN e OUT, para ler e escrever nos registradores. Em ambos os casos, a E/S e executada por transfe¬ 
rence de dados e informagao de estado entre a CPU e esses registradores. 


Figura 5.30 Registradores de dispositivo para um terminal simples. 


Caractere disponfvel (CHARACTER AVAILABLE) pronto para pr6ximo caractere (READY) 
/ Estado do teclado / Estado do monitor 




Interrupgao habilitada 




Interrupgao habilitada 


Buffer do teclado 
Caractere recebido 


Buffer do monitor 
Caractere a apresentar 


O registrador de estado do teclado tern 2 bits que sao usados e 6 bits que nao o sao. O bit da extrema esquer- 
da (7) e marcado em 1 pelo hardware sempre que um caractere chegar. Se o software tiver marcado antes o bit 6, 
e gerada uma interrupgao; caso contrario, ela nao e gerada (interrupgoes serao discutidas em breve). Quando usa 
E/S programada para obter entrada, a CPU normalmente se encontra em um lago estreito que le repetidas vezes 
o registrador de estado do teclado a espera do bit 7 para entao continuar. Quando isso acontece, o software le o 
registrador de buffer do teclado para obter o caractere. Ao ler o registrador de dados do teclado, o registrador faz 
com que o bit CHARACTER AVAILABLE (caractere disponlvel, bit 7) seja retornado para 0. 

A salda funciona de modo semelhante. Para escrever um caractere na tela, o software primeiro le o registra¬ 
dor de estado do monitor para ver se o bit READY (pronto para proximo caractere) e 1. Se nao for, executa o lago 
ate que o bit va para 1, o que indica que o dispositivo esta pronto para aceitar um caractere. Tao logo o terminal 
esteja pronto, o software escreve um caractere para o registrador de buffer do monitor, o que faz com que ele seja 
transmitido para a tela, e tambem com que o dispositivo libere o bit READY no registrador de estado do monitor. 
Quando o caractere for apresentado na tela e o terminal estiver pronto para tratar o proximo caractere, o contro- 
lador automaticamente ajusta o bit READY para 1 novamente. 

Como um exemplo de E/S programada, considere o procedimento Java da Figura 5.31. Esse procedimento 
e chamado com dois parametros: um vetor de caracteres para salda e o numero de caracteres presentes no vetor, 
ate 1 K. O corpo do procedimento e um lago que envia caracteres para a salda um por vez. Para cada caractere, 
primeiro a CPU tern de esperar ate que o dispositivo esteja pronto, e entao envia o caractere. Os procedimentos 
in e out seriam tlpicas rotinas de linguagem de montagem para ler e escrever os registradores do dispositivo espe- 
cificados pelo primeiro parametro de ou para a variavel especificada como o segundo parametro. A divisao por 
128, impllcita pelo deslocamento, se livra dos 7 bits de ordem baixa deixando o bit READY no bit 0. 

A principal desvantagem da E/S programada e que a CPU gasta grande parte de seu tempo em um lago 
estreito esperando que o dispositivo fique pronto. Essa abordagem e denominada espera ocupada. Se a CPU nao 
tiver nada mais a fazer (por exemplo, a CPU de uma maquina de lavar), a espera ocupada pode servir (embora ate 
um simples controlador muitas vezes precise monitorar varios eventos concorrentes). Todavia, se houver outro 
trabalho a fazer, como executar outros programas, a espera ocupada e um desperdlcio, portanto, e preciso um 
metodo de E/S diferente. 
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Figura 5.31 Exemplo de E/S programada. 

public static void output_buffer(char buf[ ], int count) { 

// Produza um bloco de dados para o dispositivo 
int status, i, ready; 

for (i = 0; i < count; i++) { 
do { 

status = in(display_status_reg); // obtenha estado 
ready = (status » 7) & 0x01; // isole o bit de pronto 

} while (ready != 1); 
out(display_buffer_reg, buf[i]); 

> 

> 


O modo de se livrar da espera ocupada e fazer com que a CPU inicie o dispositivo de E/S e diga a ele para 
gerar uma interrupgao quando concluir. A Figura 5.30 nos mostra como isso e feito. Ajustando o bit INTERRUPT 
ENABLE (interrupgao habilitada) em um registrador de dispositivo, o software pode requisitar que o hardware 
lhe de um sinal quando a E/S for conclulda. Estudaremos em detalhes interrupgoes mais adiante neste capltulo, 
quando chegarmos ao fluxo de controle. 

Vale a pena mencionar que, em muitos computadores, o sinal de interrupgao e gerado por uma operagao AND 
entre o bit INTERRUPT ENABLE e o bit READY. Se o software primeiro habilitar interrupgoes (antes de iniciar a 
E/S), uma interrupgao acontecera de imediato, porque o bit READY sera 1. Assim, pode ser necessario primeiro 
iniciar o dispositivo; entao, logo apos, habilitar interrupgoes. Escrever um byte para o registrador de estado nao 
altera o bit READY, que e so de leitura. 

Embora a E/S por interrupgao seja um grande passo a frente em comparagao com a E/S programada, esta 
longe de ser perfeita. O problema e que e requerida uma interrupgao para todo caractere transmitido. Como pro- 
cessar uma interrupgao e caro, precisamos de um meio de nos livrar da maioria das interrupgoes. 

A solugao esta em voltar a E/S programada, mas contra tar alguem para faze-la. (A solugao para muitos problemas 
e ter alguem para fazer o servigo.) A Figura 5.32 mostra como isso e feito. Aqui, acrescentamos ao sistema um novo 
chip, um controlador DMA (Direct Memory Access - acesso direto a memoria), com acesso direto ao barramento. 


Figura 5.32 


Sistema com um controlador DMA. 


Terminal 
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O chip DMA contem, no mlnimo, quatro registradores, e todos podem ser carregados por software executado 
na CPU. O primeiro contem o enderego de memoria a ser lido ou escrito. O segundo contem a quantidade de 
bytes (ou palavras) a ser transferida. O terceiro especifica o numero do dispositivo ou espago de enderego de E/S 
a utilizar, especificando, assim, qual e o dispositivo de E/S desejado. O quarto informa se dados devem ser lidos 
ou escritos para o dispositivo de E/S. 

Para escrever um bloco de 32 bytes do enderego de memoria 100 para um terminal (por exemplo, dispositivo 
4), a CPU escreve os numeros 32, 100 e 4 nos tres primeiros registradores DMA e entao o codigo para WRITE 
(por exemplo, 1) no quarto, como mostra a Figura 5.32. Uma vez inicializado desse modo, o controlador DMA 
faz uma requisigao ao barramento para ler o byte 100 da memoria, do mesmo modo que a CPU leria da memoria. 
Apos ter obtido esse byte, o controlador DMA faz uma requisigao de E/S ao dispositivo 4 para escrever o byte para 
ele. Apos a conclusao de ambas as operagoes, o controlador DMA incrementa em 1 seu registrador de enderego e 
decrementa em 1 seu registrador de contagem. Se a contagem do registrador ainda for maior do que 0, outro byte 
e lido da memoria e entao escrito para o dispositivo. 

Quando a contagem por fim chega a 0, o controlador DMA para de transferir dados e ativa a linha de inter¬ 
rupgao no chip da CPU. Com DMA, a CPU tern de iniciabzar apenas alguns registradores. Logo apos, ela esta 
livre para fazer qualquer outra coisa ate que a transference completa seja conclulda, quando entao obtem uma 
interrupgao do controlador DMA. Alguns desses controladores tern dois, tres ou mais conjuntos de registradores, 
portanto, podem controlar varias transferences simultaneas. 

Embora o DMA alivie muito a CPU da carga de E/S, o processo ainda tern um custo. Se um dispositivo de 
alta velocidade, como um disco, estiver sendo executado por DMA, serao necessarios muitos ciclos de barramen¬ 
to, tanto para references a memoria quanto para references aos dispositivos. Durante esses ciclos, a CPU tera de 
esperar (a prioridade do DMA no barramento e sempre maior do que a da CPU porque, em geral, dispositivos de E/S 
nao podem tolerar atrasos). O processo de um controlador DMA tirar ciclos da CPU e denominado roubo de ciclo. 
Ainda assim, o ganho por nao ter de tratar uma interrupgao por byte (ou palavra) transferido compensa em muito 
a perda devido ao roubo de ciclo. 

5.5.8 Instrucoes do Core i7 

Nesta segao e nas duas seguintes, estudaremos os conjuntos de instrugoes de nossas tres maquinas de 
exemplo: o Core i7, a CPU ARM do OMAP4430 e a CPU AVR do ATmegal68. Cada um deles tern um nucleo 
de instrugoes que costumam ser geradas por compiladores, e mais um conjunto de instrugoes que raramente sao 
usadas, ou o sao somente pelo sistema operacional. Em nossa discussao, focalizaremos as instrugoes comuns. 
Vamos comegar com o Core i7. Ele e o mais complicado. Depois disso, vamos descer a colina. 

O conjunto de instrugoes do Core i7 e uma mistura de instrugoes que fazem sentido no modo de 32 bits e 
instrugoes que remontam a sua vida anterior como um 8088. Na Figura 5.33, mostramos uma pequena selegao 
das instrugoes de inteiros mais comuns que os compiladores e programadores talvez usem nos dias atuais. Essa 
lista esta longe de ser completa, porque nao inclui instrugoes de ponto flutuante, instrugoes de controle e nem 
mesmo algumas das instrugoes de inteiros mais exoticas (como usar um byte de 8 bits em AL para reabzar con- 
sulta de tabela). Nao obstante, ela da uma boa ideia do que o Core i7 pode fazer. 

Muitas das instrugoes do Core i7 referenciam um ou dois operandos, seja em registradores, seja na memoria. 
Por exemplo, a instrugao ADD de dois operandos soma a origem ao destino, e a instrugao INC de um operando 
incrementa (soma 1 a) seu operando. Algumas das instrugoes tern diversas variantes que guardam estreita relagao 
com elas. Por exemplo, as instrugoes de deslocamento podem deslocar para a direita ou para a esquerda e podem 
dar ou nao tratamento especial ao bit de sinal. Grande parte das instrugoes tern uma variedade de diferentes 
codificagoes, dependendo da natureza dos operandos. 

Na Figura 5.33, os campos SRC sao fontes de informagao e nao sao alterados. Por comparagao, os campos DST 
sao destinos e normalmente sao modificados pela instrugao. Ha algumas regras sobre o que e permitido a uma fonte 
ou a um destino que variam erraticamente de instrugao para instrugao, mas nao entraremos nesse assunto aqui. 
Muitas instrugoes tern tres variantes, para operandos de 8, 16 e 32 bits, respectivamente. Elas sao distinguidas por 
opcodes diferentes e/ou por um bit na instrugao. A lista da Figura 5.33 da enfase as instrugoes de 32 bits. 
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Figura 5.33 Selecao de instructs de inteiros do Core i7. 


Movimentos 


Transference de controle 


MOV DST.SRC 

Mova SRC para DST 


JMP ADDR 

Salte para ADDR 


PUSH SRC 

Passe SRC para a pilha 

Jxx ADDR 

Saltos condicionais com base em flags 

POP DST 

Retire uma palavra da pilha e passe-a para DST 

CALLADDR 

Chame procedimento em ADDR 

XCHG DS1.DS2 

Permute DS1 e DS2 

RET 

Retorne do procedimento 

LEA DST.SRC 

Carregue enderego efetivo de SRC para DST 

IRET 

Retorne da interrupgao 

CMOVcc DST.SRC 

Movimento condicional 

LOOPxx 

Efetue lago ate cumprir condigao 



INTn 

Inicie uma interrupgao de software 

Aritmetica 


INTO 

Interrompa se bit de transbordo estiver marcado 

ADD DST.SRC 

Some SRC com DST 




SUB DST.SRC 

Subtraia SRC de DST 

Cadeia de caracteres 


MUL SRC 

Multiplique EAX por SRC (sem sinal) 


LODS 

Carregue cadeia 


IMULSRC 

Multiplique EAX por SRC (com sinal) 

STOS 

Armazene cadeia 

DIV SRC 

Divida EDX:EAX por SRC (sem sinal) 

MOVS 

Mova cadeia 

IDIV SRC 

Divida EDX:EAX por SRC (com sinal) 

CMPS 

Compare duas cadeias 

ADC DST.SRC 

Some SRC com DST, entao, some bit vai-um 

SCAS 

Examine cadeias 

SBB DST.SRC 

Subtraia SRC e faga vai-um de DST 




INC DST 

Some 1 a DST 

Codigos de condigao 

DEC DST 

Subtraia 1 de DST 

STC 

Marque bit de vai-um em registrador EFLAGS 

NEG DST 

Negue DST (subtraia DST de 0) 

CLC 

Limpe bit de vai-um em registrador EFLAGS 



CMC 

Complemente bit de vai-um em registrador EFLAGS 

Decimals de codigo binario 


STD 

Marque bit de diregao em registrador EFLAGS 

DAA 

Ajuste decimal 


CLD 

Limpe bit de diregao em registrador EFLAGS 

DAS 

Ajuste decimal para subtragao 

STI 

Marque bit de interrupgao em registrador EFLAGS 

AAA 

Ajuste decimal para adigao 

CLI 

Limpe bit de interrupgao em registrador EFLAGS 

AAS 

Ajuste ASCII para subtragao 

PUSHFD 

Passe registrador EFLAGS para pilha 

AAM 

Ajuste ASCII para multiplicagao 

POPFD 

Retire registrador EFLAGS da pilha 

AAD 

Ajuste ASCII para divisao 

LAHF 

Carregue AH a partir do registrador EFLAGS 

Booleanas 


SAHF 

Armazene AH em registrador EFLAGS 

AND DST.SRC 

AND booleana entre SRC e DST 



OR DST.SRC 

OR booleana entre SRC e DST 

uiversas 



SWAP DST 

Mude o lado do bit menos significativo de DST 


XOR DST.SRC 

Exclusive OR booleana entre SRC e DST 

CWC 

Estenda EAX para EDX:EAX para divisao 

NOT DST 

Substitua DST por complemento de 1 

CWDE 

Estenda numero de 16 bits em AX para EAX 



Deslocamento/rotagao 

ENTER SIZE,LV 

Crie quadro de pilha com bytes SIZE 

SAL/SAR DST,# 

Desloque DST para esquerda/direita # bits 

LEAVE 

Desfaga quadro de pilha montado por ENTER 

SHL/SHR DST,# 

Desloque logicamente DST para esquerda/direita # bits 

NOP 

Nenhuma operagao 

ROL/ROR DST,# 

Rode DST para esquerda/direita # bits 

HLT 

Pare 

RCL/RCR DST,# 

Rode DST ate # bits de vai-um 

IN AL.PORT 

Entre urn byte de PORT para AL 



OUT PORT.AL 

Saia com urn byte de AL para PORT 

Teste/comparagao 


WAIT 

Espere por uma interrupgao 

TEST SRC1 ,SRC2 

Efetue AND booleana de operandos, ajuste flags 


SRC = oriaem # = contaaem de deslocamento/rotacao 


CMP SRC1.SRC2 

Ajuste flags com base em SRC1-SRC2 

DST = destino LV = # locais 


















































































Caphulo 5 • 0 nivel de arquitetura do conjunto de instrucao 


315 


Por convenience, dividimos as instrugoes em varios grupos. O primeiro contem instrugoes que movem 
dados pela maquina, entre registradores, a memoria e a pilha. O segundo efetua aritmetica, com sinal e sem sinal. 
Para multiplicagao e divisao, o produto ou dividendo de 64 bits e armazenado em EAX (parte de ordem baixa) e 
EDX (parte de ordem alta). 

O terceiro grupo efetua aritmetica decimal em codigo binario (BCD - Binary Coded Decimal), tratando cada 
byte como dois nibbles de 4 bits. Cada nibble contem um dlgito decimal (0 a 9). Nao sao usadas as combinagoes 
de bits 1010 a 1111. Assim, um inteiro de 16 bits pode conter um numero decimal de 0 a 9999. Embora inefi- 
ciente, essa forma de armazenamento elimina a necessidade de converter entrada decimal para binaria e depois 
converte-la novamente para decimal para salda. Essas instrugoes sao usadas para efetuar aritmetica nos numeros 
BCD. Sao muito usadas em programas COBOL. 

As instrugoes booleanas de deslocamento/rotagao manipulam os bits em uma palavra ou byte de varias 
maneiras. Varias combinagoes sao fornecidas. 

Os dois grupos seguintes dizem respeito a teste e comparagao e entao a saltos com base nos resultados. 
Os resultados de instrugoes de teste e comparagao sao armazenados em varios bits do registrador EFLAGS. Jxx 
representa um conjunto de instrugoes que salta condicionalmente, dependendo dos resultados da comparagao 
anterior (isto e, dos bits em EFLAGS). 

O Core i7 tern varias instrugoes para carregar, armazenar, mover, comparar e examinar cadeias de caracteres 
ou palavras. Essas instrugoes podem ter um byte de prefixo especial denominado REP, que as faz serem repetidas 
ate que uma certa condigao seja cumprida, como ECX, que e decrementada apos cada iteragao, ate chegar a 0. 
Desse modo, blocos arbitrarios de dados podem ser movidos, comparados e assim por diante. O grupo seguinte 
gerencia os codigos de condigao. 

O ultimo grupo e um apanhado de instrugoes que nao se encaixam em nenhum outro grupo. Inclui conver- 
soes, gerenciamento de quadro de pilha, parar a CPU e E/S. 

O Core i7 tern varios prefixos, dentre os quais ja mencionamos um (REP). Cada um deles e um byte especial 
que pode preceder a maioria das instrugoes, semelhante a WIDE em IJVM. REP faz a instrugao que vem depois 
dele ser repetida ate ECX chegar a 0, como ja dissemos. REPZ e REPNZ executam repetidas vezes a instrugao 
seguinte ate o codigo de condigao Z ser marcado, ou nao marcado, respectivamente. LOCK reserva o barramento 
para toda a instrugao, para permitir sincronizagao de multiprocessador. Outros prefixos sao usados para obrigar 
uma instrugao a operar em modo de 16 bits ou em modo de 32 bits, o que nao so muda o comprimento dos ope- 
randos, mas tambem redefine completamente os modos de enderegamento. Por fim, o Core i7 tern um esquema 
de segmentagao complexo, com codigo, dados, pilha e segmentos extras, um remanescente do 8088. Sao forne- 
cidos prefixos para obrigar as references a memoria a usar segmentos especlficos, mas nao nos preocuparemos 
com eles (ainda bem). 

5.5.9 Instrucoes da CPU ARM do OMAP4430 

Quase todas as instrugoes ARM de inteiros de modo usuario que um compilador poderia gerar estao 
relacionadas na Figura 5.34. Nao damos aqui instrugoes de ponto flutuante, nem de controle (por exemplo, 
gerenciamento de cache , inicializagao de sistema), instrugoes que envolvem espagos de enderegos, exceto os de 
usuario, nem extensoes de instrugao, como Thumb. O conjunto e surpreendentemente pequeno: a ISA ARM 
do OMAP4430 e de fato um computador com conjunto reduzido de instrugoes. 
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Figura 5.34 As principals instrucoes de inteiros da CPU ARM do 0MAP4430. 


Cargas 


LDRSB DST,ADDR 

Carregue byte com sinal (8 bits) 

LDRB DST,ADDR 

Carregue byte sem sinal (8 bits) 

LDRSH DST,ADDR 

Carregue meia palavra com sinal (16 bits) 

LDRH DST,ADDR 

Carregue meia palavra sem sinal (16 bits) 

LDR DST,ADDR 

Carregue palavra (32 bits) 

LDM SI,REGLIST 

Carregue multiplas palavras 


Armazenamentos 


STRB DST,ADDR 

Armazene byte (8 bits) 

STRH DST,ADDR 

Armazene meia palavra (16 bits) 

STR DST,ADDR 

Armazene palavra (32 bits) 

STM SRC,REGLIST 

Armazene multiplas palavras 


Deslocamentos/rotagoes 


LSL DST,SI ,S2IMM 

Desloque logicamente para a esquerda 

LSR DST,SI ,S2IMM 

Desloque logicamente para a direita 

ASR DST,SI ,S2IMM 

Desloque aritmetica para a direita 

ROR DSR,S1 ,S2IMM 

Rode para a direita 


Booleanas 


TST DST,SI ,S2IMM 

Teste bits 

TEQ DST,SI ,S2IMM 

Teste equivalence 

AND DST,SI ,S2IMM 

AND booleano 

EOR DST,SI ,S2IMM 

EXCLUSIVE OR booleano 

ORR DST,SI ,S2IMM 

OR booleano 

BIC DST,SI ,S2IMM 

Apague bit 


Aritmetica 


ADD DST,SI ,S2IMM 

Some 

ADC DST,SI ,S2IMM 

Some com vai-um 

SUB DST,SI ,S2IMM 

Subtraia 

SBC DST,SI ,S2IMM 

Subtraia com vai-um 

RSB DST,SI ,S2IMM 

Reverta a subtragao 

RSC DST,SI ,S2IMM 

Reverta a subtragao com vai-um 

MUL DST,SI ,S2 

Multiplique 

MLA DST,SI,S2,S3 

Multiplique e acumule 

UMULL D1 ,D2,S1 ,S2 

Multiplique longo sem sinal 

SMULL D1,D2,S1,S2 

Multiplique longo com sinal 

UMLAL D1 ,D2,S1 ,S2 

MLA longo sem sinal 

SMLAL D1 ,D2,S1 ,S2 

MLA longo com sinal 

CMP SI ,S2IMM 

Compare e defina PSR 


SI = registrador de origem 

S2IMM = registrador de origem ou imediato 

S3 = registrador de origem (quando 3 sao usados) 

DST = registrador de destino 

D1 = registrador de destino (1 de 2) 

D2 = registrador de destino (2 de 2) 


Transference de controle 


Bcc IMM 

Desvie para PC + IMM 

BLcc IMM 

Desvie com link para PC + IMM 

BLcc SI 

Desvie com link para soma de registrador 


Diversas 


MOV DST,SI 

Mova registrador 

MOVT DST,IMM 

Mova imm para bits superiores 

MVN DST,SI 

Efetua a inversao logica (NOT) do registrador 

MRS DST,PSR 

Leia PSR 

MSR PSR,SI 

Escreva PSR 

SWP DST,SI,ADDR 

Troque palavra de reg/mem 

SWPB DST,SI,ADDR 

Troque byte de reg/mem 

SWI IMM 

Interrupgao de software 


ADDR = enderego de memoria 

IMM = valor imediato 

REGLIST = lista de registradores 

PSR = registrador de estado do processador 

cc = condigao de desvio 


As instrugoes LDR e STR sao diretas, com versoes para 1, 2 e 4 bytes. Quando um numero com menos de 
32 bits e carregado em um registrador (32 bits), pode ser estendido em sinal ou estendido em zeros. Existem 
instrugoes para as duas opgoes. 

O proximo grupo e para aritmetica, que opcionalmente pode definir os bits do codigo de condigao 
do registrador de estado do processador. Em maquinas CISC, grande parte das instrugoes ajusta os codigos de 
condigao, mas em uma maquina RISC isso e indesejavel porque restringe a liberdade de o compilador mover 
instrugoes para la e para ca quando ten tar escalona-las a fim de tolerar atrasos da instrugao. Se a ordem original 
de instrugoes for A ... B ... C, sendo que A marca os codigos de condigao e B testa os codigos, o compilador nao 
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pode inserir C entre A e B se C marcar os codigos de condigao. Por essa razao, sao fornecidas duas versoes de 
muitas instrugoes, e o compilador costuma usar a que nao marca os codigos de condigao, a menos que esteja 
em seus pianos testa-las mais tarde. O programador especifica a definigao dos codigos de condigao acrescen- 
tando urn “S” ao final do nome do opcode da instrugao, por exemplo, ADDS. Um bit na instrugao indica ao 
processador que os codigos de condigao devem ser marcados. Multiplicagao e multiplicagao com acumulador 
tambem sao suportadas. 

O grupo de deslocamento contem um deslocamento para a esquerda e dois para a direita, cada um operan- 
do sobre registradores de 32 bits. A instrugao de rotagao a direita realiza uma rotagao circular de bits dentro do 
registrador, de modo que o bit que sai da posigao menos significativa reaparece como o mais significativo. Os 
deslocamentos sao mais usados para manipulagao de bits. A maioria das maquinas CISC tern um grande numero 
de instrugoes de deslocamento e rotagao, praticamente todas elas totalmente inuteis. Poucos escritores de com- 
piladores passarao noites em claro chorando sua ausencia. 

O grupo de instrugoes booleanas e parecido com o grupo aritmetico. Inclui operagoes AND, EOR, ORR, TST, 
TEQ e BIC. O valor das ultimas tres e questionavel, mas elas podem ser efetuadas em um ciclo e requerem quase 
nenhum hardware, entao, foram mantidas. Ate projetistas de maquinas RISC as vezes sucumbem a tentagao. 

O proximo grupo de instrugoes contem as transferences de controle. Bcc representa um conjunto de instru¬ 
goes que desviam em varias condigoes. BLcc e semelhante porque desvia em varias condigoes, mas tambem depo- 
sita o enderego da proxima instrugao no registrador de ligagao (R14). Essa instrugao e util para efetuar chamadas 
de procedimento. Diferente de todas as outras arquiteturas RISC, nao ha uma instrugao expllcita de desvio para 
enderego de registrador. Ela pode ser simulada com facilidade usando uma instrugao MOV com o destino definido 
para o contador de programa (R15). 

Ha duas maneiras de chamar procedimentos. A primeira instrugao BLcc usa o forma to de “desvio” da Figura 
5.14 com um deslocamento de palavra relativo ao PC de 24 bits. Esse valor e suficiente para atingir qualquer ins¬ 
trugao dentro de 32 MB a partir da chamada, em qualquer diregao. A segunda salta para o enderego no registrador 
especificado. Isso pode ser usado para efetuar chamadas de procedimento ligadas dinamicamente (por exemplo, 
fungoes virtuais da C++) ou chamadas alem do alcance dos 32 MB. 

O ultimo grupo contem alguns remanescentes. MOVT e necessaria porque nao ha um modo de colocar um 
operando imediato de 32 bits em um registrador. Isso pode ser feito usando MOVT para marcar os bits de 16 a 31 
e depois fazer com que a proxima instrugao fornega os bits restantes, usando o forma to imediato. As instrugoes 
MRS e MSR permitem a leitura e a escrita da palavra de estado do processador (PSR). As instrugoes SWP reali- 
zam trocas indivislveis entre um registrador e um local da memoria. Essas instrugoes efetuam os primitivos de 
sincronismo de multiprocessador, que veremos no Capltulo 8. Por fim, a instrugao SWI inicia uma interrupgao 
de software, que e um modo sofisticado de dizer que ela inicia uma chamada do sistema. 

5.5.10 Instrucoes da CPU AVR do ATmegal68 

O ATmegal68 tern um conjunto de instrugoes simples, mostrado na Figura 5.35. Cada linha da o mnemoni- 
co, uma breve descrigao e um fragmento de pseudocodigo que detalha a operagao da instrugao. Como era de se 
esperar, ha uma variedade de instrugoes MOV para mover dados entre os registradores. Ha instrugoes para passar 
e retirar de uma pilha, a qual e apontada pelo ponteiro de pilha (SP) de 16 bits na memoria. A memoria pode ser 
acessada tanto por um enderego imediato, registrador indireto, ou registradror indireto mais um deslocamento. 
Para permitir 64 KB de enderegamento, a carga com um enderego imediato e uma instrugao de 32 bits. O modo 
de enderegamento indireto utiliza pares de registradores X, Y e Z, que combinam os dois registradores de 8 bits 
para formar um unico ponteiro de 16 bits. 
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Figura 5.35 Conjunto de instrucoes da CPU AVR do ATmegal 68. 


Instrugao 

Descrigao 

Semantica 

ADD DST,SRC 

Some 

DST DST + SRC 

ADC DST,SRC 

Some com vai-um 

DST <- DST + SRC + C 

ADIW DST,IMM 

Some imediato com palavra 

DST+1 :DST <- DST+1:DST + IMM 

SUB DST,SRC 

Subtraia 

DST DST - SRC 

SUBI DST,IMM 

Subtraia imediato 

DST ■«- DST - IMM 

SBC DST,SRC 

Subtraia com vai-um 

DST DST - SRC - C 

SBCI DST,IMM 

Subtraia imediato com vai-um 

DST DST - IMM - C 

SBIW DST,IMM 

Subtraia imediato da palavra 

DST+1 :DST DST+1:DST - IMM 

AND DST,SRC 

AND logico 

DST ■«- DST AND SRC 

ANDI DST,IMM 

AND logico com imediato 

DST <- DST AND IMM 

OR DST,SRC 

OR logico 

DST DST OR SRC 

ORI DST,IMM 

OR logico com imediato 

DST «- DST OR IMM 

EOR DST,SRC 

EXCLUSIVE OR 

DST DST XOR SRC 

COM DST 

Complemento de urn 

DST OxFF - DST 

NEG DST 

Complemento de dois 

DST 0x00 - DST 

SBR DST,IMM 

Marque bit(s) no registrador 

DST <- DST OR IMM 

CBR DST,IMM 

Limpe bit(s) no registrador 

DST DST AND (OxFF - IMM) 

ING DST 

Incremente 

DST <- DST + 1 

DEC DST 

Decremente 

DST DST - 1 

TST DST 

Teste se e zero ou negativo 

DST «- DST AND DST 

CLR DST 

Limpe registrador 

DST DST XOR DST 

SER DST 

Marque registrador 

DST OxFF 

MUL DST,SRC 

Multiplique sem sinal 

R1 :R0 <- DST * SRC 

MULS DST,SRC 

Multiplique com sinal 

R1 :R0 <- DST * SRC 

MULSU DST,SRC 

Multiplique com sinal e sem sinal 

R1:R0<- DST* SRC 

RJMP IMM 

Salte em relagao ao PC 

PC «- PC + IMM + 1 

IJMP 

Salte indireto para Z 

PC^Z(R30:R31) 

JMP IMM 

Salte 

PC^ IMM 

RCALL IMM 

Chamada relativa 

STACK PC+2, PC ^ PC + IMM + 1 

ICALL 

Chamada indireta para (Z) 

STACK PC+2, PC - Z (R30:R31) 

CALL 

Chamada 

STACK «- PC+2, PC ^ IMM 

RET 

Retorne 

PC STACK 

CP DST,SRC 

Compare 

DST - SRC 

CPC DST,SRC 

Compare com vai-um 

DST - SRC-C 

CPI DST,IMM 

Compare com imediato 

DST-IMM 

BRcc IMM 

Desvie em condigao 

if cc(true) PC <- PC + IMM + 1 

MOV DST,SRC 

Copie registrador 

DST <- SRC 

MOVW DST,SRC 

Copie par de registradores 

DST+1 :DST <-SRC+1:SRC 

LDI DST,IMM 

Carregue imediato 

DST <- IMM 

LDS DST,IMM 

Carregue direto 

DST «- MEM[IMM] 

LD DST,XYZ 

Carregue indireto 

DST «- MEM [XYZ] 

LDD DST.XYZ+IMM 

Carregue indireto com deslocamento 

DST <- MEM[XYZ+IMM] 

STS IMM,SRC 

Carregue direto 

MEM[IMM] <- SRC 

ST XYZ,SRC 

Carregue indireto 

MEM [XYZ] SRC 

STD XYZ+IMM.SRC 

Carregue indireto com deslocamento 

MEM[XYZ+IMM] <- SRC 

PUSH REGLIST 

Coloque registrador na pilha 

STACK REGLIST 

POP REGLIST 

Retire registrador da pilha 

REGLIST ^ STACK 

LSL DST 

Deslocamento logico a esquerda por urn 

DST ^ DST LSL 1 

LSR DST 

Deslocamento logico a direita por urn 

DST DST LSR 1 

ROL DST 

Rotagao a esquerda por urn 

DST ^ DST ROL 1 

ROR DST 

Rotagao a direita por urn 

DST DST ROR 1 

ASR DST 

Deslocamento aritmetico a direita por urn 

DST ^ DST ASR 1 


SRS = registrador de origem XYZ = par de registradores X, Y ou Z 

DST = registrador de destino MEM[A] = accessar a memoria no enderego A 

IMM = valor imediato 
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O ATmegal68 tem instrugoes aritmeticas simples para somar, subtrair e multiplicar, sendo que esta ultima 
usa dois registradores. Incrementar e decrementar tambem sao operagoes possiveis e muito usadas. Instrugoes 
booleanas, de deslocamento e de rotagao tambem estao presentes. A instrugao de desvio e chamada pode visar 
um enderego imediato, um relativo ao PC ou um contido no par de registradores Z. 

5.5.11 Comparacao de conjuntos de instrucoes 

Os tres exemplos de conjuntos de instrugao sao muito diferentes. O Core i7 e uma classica maquina CISC 
de dois enderegos de 32 bits, com uma longa historia, modos de enderegamento peculiares e muito irregulares e 
muitas instrugoes que referenciam a memoria. 

A CPU ARM do OMAP4430 e uma moderna RISC de tres enderegos de 32 bits, com arquitetura carga/arma- 
zenamento, poucos modos de enderegamento e um conjunto de instrugoes compacto e eficiente. A arquitetura 
AVR do ATmegal68 e um minusculo processador embutido, projetado para caber em um unico chip. 

Cada maquina e como e por uma boa razao. O projeto do Core i7 foi determinado por tres fa tores principais: 

1. Compatibilidade. 

2. Compatibilidade. 

3. Compatibilidade. 

Dada a tecnologia atual, ninguem projetaria uma maquina tao irregular com um numero tao pequeno de 
registradores, todos diferentes. Isso dificulta a escrita de compiladores. A falta de registradores tambem obriga 
os compiladores a despejar variaveis constantemente na memoria e entao carrega-las de novo, um negocio caro, 
mesmo com dois ou tres nlveis de cache. O fa to de o Core i7 ser tao rapido, mesmo com as limitagoes dessa ISA, 
e um testemunho da qualidade dos engenheiros da Intel. Mas, como vimos no Capltulo 4, a implementagao e de 
extrema complexidade. 

A CPU ARM do OMAP4430 representa um projeto de ISA de ultima geragao. Ela tem uma ISA completa de 
32 bits. Possui muitos registradores e um conjunto de instrugao que da enfase a operagoes com tres registradores, 
e mais um pequeno grupo de instrugoes LOAD e STORE. Todas as instrugoes tem o mesmo tamanho, embora o 
numero de formatos tenha saldo um pouco de controle. Ainda assim, ela se presta a uma implementagao direta 
e eficiente. Grande parte dos novos projetos tende a se parecer com a arquitetura ARM do OMAP4430, mas com 
menos formatos de instrugao. 

A CPU AVR do ATmegal68 tem um conjunto de instrugoes simples e de razoavel regularidade com um 
numero relativamente baixo de instrugoes e poucos modos de enderegamento. Ela se distingue por ter 32 registra¬ 
dores de 8 bits, acesso rapido aos dados, um modo para acessar registradores no espago de memoria e instrugoes 
de manipulagao de bit surpreendentemente poderosas. O maior motivo de sua fama e que ela pode ser efetuada 
com um numero muito pequeno de transistores, o que possibilita colocar um grande numero deles em um subs- 
trato e, por conseguinte, mantem muito baixo o custo por CPU. 


5.6 Fluxo de controle 

Fluxo de controle se refere a sequencia em que as instrugoes sao executadas dinamicamente, isto e, durante 
a execugao do programa. Em geral, na ausencia de desvios e chamadas de procedimento, instrugoes executadas 
em sequencia sao buscadas em locais consecutivos de memoria. Chamadas de procedimento causam alteragao no 
fluxo de controle, interrompendo o procedimento que esta sendo executado naquele momento e iniciando o pro¬ 
cedimento chamado. Corrotinas sao relacionadas com procedimentos e causam alteragoes semelhantes no fluxo 
de controle. Elas sao uteis para simular processos paralelos. Excegoes e interrupgoes tambem causam alteragao no 
fluxo de controle quando ocorrem condigoes especiais. Todos esses topicos serao discutidos nas segoes seguintes. 
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5.6.1 Fluxo de controle sequencial e desvios 

A maioria das instrugoes nao altera o fluxo de controle. Apos uma instrugao ser executada, a que vem 
depois dela na memoria e buscada e executada. Apos cada instrugao, o contador de programa e aumentado pelo 
comprimento da instrugao. Se isso for observado por um intervalo de tempo longo em comparagao com o tempo 
medio de instrugao, o contador de programa e mais ou menos uma fungao linear do tempo, aumentando com o 
comprimento medio da instrugao por tempo medio de instrugao. Em outras palavras, a ordem dinamica na qual 
o processador de fato executa as instrugoes e a mesma em que elas aparecem na listagem do programa, como mos- 
tra a Figura 5.36(a). Se um programa contem desvios, essa relagao simples entre a ordem na qual as instrugoes 
aparecem na memoria e a ordem em que elas sao executadas ja nao vale mais. Quando ha desvios presentes, o 
contador de programa deixa de ser uma fungao monotonica crescente do tempo, como mostra a Figura 5.36(b). 
O resultado e que fica diflcil visualizar a sequencia de execugao de instrugoes com base na listagem do programa. 


Figura 5.36 


Contador de programa como funcao de tempo (ajustada). (a) Sem desvios. (b) Com desvios. 




Quando os programadores tern problemas para monitorar a sequencia na qual o processador executara as 
instrugoes, tendem a cometer erros. Essa observagao levou Dijkstra (1968a) a escrever a carta, controvertida na 
ocasiao, intitulada “GOTO Statement Considered Harmful” (“Comando GOTO considerado perigoso”), na qual 
sugeria evitar comandos goto. Essa carta deu origem a revolugao da programagao estruturada, da qual um dos 
dogmas e a substituigao de declaragoes goto por formas de controle de fluxo mais estruturadas, como lagos while. 
E claro que esses programas compilam ate programas de nlvel 2 que contem muitos desvios, porque a implemen- 
tagao de if, while e outras estruturas de controle de alto nlvel requer desvios para todos os lados. 

5.6.2 Procedimentos 

A tecnica mais importante para estruturar programas e o procedimento. De certo ponto de vista, uma chama- 
da de procedimento altera o fluxo de controle exatamente como um desvio, mas, diferente deste, quando conclui 
a execugao de sua tarefa, ela devolve o controle a declaragao ou instrugao que vem apos a chamada. 

Contudo, de outro ponto de vista, um corpo de procedimento pode ser considerado algo que define uma 
nova instrugao em um nlvel mais alto. Dessa perspectiva, uma chamada de procedimento pode ser entendida 
como uma unica instrugao, ainda que o procedimento possa ser bastante complicado. Para entender um fragmen- 
to de codigo que contem uma chamada de procedimento, basta saber o que ele faz, e nao como o faz. 
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Um tipo de procedimento de particular interesse e o procedimento recursivo, isto e, um procedimento que 
chama a si mesmo, direta ou indiretamente, por meio de uma cadeia de outros procedimentos. Estudar procedi- 
mentos recursivos da uma boa ideia de como sao implantadas as chamadas de procedimento e o que realmente 
sao variaveis locais. Agora, daremos um exemplo de procedimento recursivo. 

“Torres de Hanoi” e um antigo problema que tern solugao simples envolvendo recursao. Em certo mosteiro 
em Hanoi, havia tres estacas de ouro. Ao redor da primeira havia uma serie de 64 discos concentricos de ouro, 
cada um com um oriflcio no meio para a estaca. Cada disco tern um diametro um pouco menor do que o que 
esta abaixo dele. A segunda e terceira estacas estavam inicialmente vazias. Os monges desse mosteiro estao muito 
ocupados transferindo todos os discos para a estaca 3, um por vez, mas nunca um disco maior pode ficar por cima 
de um menor. Diz a lenda que, quando eles terminarem, o mundo acaba. Se voce quiser fazer uma experiencia 
pratica, pode usar discos de plastico e em numero menor, mas, quando resolver o problema, nada acontecera. 
Para conseguir o efeito do fim do mundo, voce precisa ter 64 discos, e de ouro. A Figura 5.37 mostra a configu- 
ragao inicial para n = 5 discos. 


Figura 5.37 


Configuracao inicial para o problema Torres de Hanoi para cinco discos. 


Estaca 1 



Estaca 2 Estaca 3 

j j 


A solugao para mover n discos da estaca 1 para a 3 consiste, primeiro, em mover n - 1 discos da estaca 1 
para a 2, e entao mover 1 disco da estaca 1 para a 3, em seguida mover n - 1 discos da estaca 2 para a 3. Essa 
solugao e ilustrada na Figura 5.38. 

Para resolver o problema, precisamos de um procedimento para mover n discos da estaca i para a estaca j. 
Quando esse procedimento e chamado, por 

torres(n, i, j) 

a solugao e impressa. Primeiro, o procedimento faz um teste para ver se n = 1. Se for, a solugao e simples - basta 
mover um disco de i para j. Se n * 1, a solugao consiste em tres partes, como ja discutimos, sendo cada uma delas 
uma chamada de procedimento recursivo. 

A solugao completa e mostrada na Figura 5.39. A chamada 
torres(3, 1, 3) 

para resolver o problema da Figura 5.38 gera mais tres chamadas. Especificamente, ela faz as chamadas 

torres(2, 1, 2) 
torres(1, 1, 3) 
torres(2, 2, 3) 

A primeira e terceira irao gerar tres chamadas cada, para um total de sete. 
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Figura 5.38 


Etapas requeridas para resolver o problema das Torres de Hanoi para tres discos. 


Estado inicial -< 


Primeiro, 
mova 2 discos 
da estaca 1 
para a estaca 2 



Depois, 
mova 1 disco 
da estaca 1 
para a estaca 3 







Por fim, 
mova 2 discos 
da estaca 2 -< 

para a estaca 3 



ee 



Para ter procedimentos recursivos, precisamos de uma pilha para armazenar os parametros e variaveis locals 
para cada chamada, o mesmo que tlnhamos na IJVM. Cada vez que um procedimento e chamado, um novo 
quadro de pilha e alocado para o procedimento que esta no topo da pilha. O quadro mais recente e o quadro cor- 
rente. Em nossos exemplos, a pilha cresce para cima, dos enderegos de memoria baixos para os enderegos altos, 
exatamente como na IJVM. Portanto, o quadro mais recente tern enderegos mais altos do que todos os outros. 

Alem do ponteiro de pilha, que aponta para o topo da pilha, muitas vezes e conveniente ter um ponteiro de 
quadro (FP - frame pointer ), que aponta para um local fixo dentro do quadro. Ele poderia apontar para o ponteiro 
de ligagao, como na IJVM, ou para a primeira variavel local. A Figura 5.39 mostra o quadro de pilha para uma 
maquina com uma palavra de 32 bits. A chamada original para torres passa n, i e j para a pilha e entao executa uma 
instrugao CALL que passa o enderego de retomo para a pilha, no enderego 1.012. Na entrada, o procedimento armazena 
o antigo valor de FP na pilha em 1.016 e entao adianta o ponteiro de pilha para alocar armazenamento para as 
variaveis locais. Com apenas uma variavel local de 32 bits ( k ), SP e incrementado em 4, passando para 1.020. A 
situagao, depois que todas essas coisas foram feitas, e mostrada na Figura 5.40(a). 
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Figura 5.39 Procedimento para resolver o problema das Torres de Hanoi. 

public void torres(int n, int i, int j) { 
int k; 


if (n == 1) 

System.out.println("Mova um disco de" + i + "para" + j); 
else { 

k = 6 - i - j; 
torres(n - 1, i, k); 
torres(1, i, j); 
torres(n - 1, k, j); 

} 


Figura 5.40 


Pilha em diversos pontos durante a execucao da Figura 5.39. 


SP 


FP 



(a) 


(b) 


(c) 


Enderego 



k 


— Antigo FP = 1024 


End de retorno 


i = 2 


i = 1 


n = 1 


CO 

II 


Antigo FP - 1000 


End de retorno 


i = 2 


i = 1 


n = 2 


k = 2 


Antigo FP 


End de retorno 


i = 3 


i = 1 


Z3 

II 

GO 



k 


Antigo FP = 1000 


End de retorno 


i = 2 


i = 1 


n = 2 


k = 2 


Antigo FP 


End de retorno 


i = 3 


i = 1 


Z3 

II 

GO 


1068 

1064 

1060 

1056 

1052 

1048 

1044 

1040 

1036 

1032 

1028 

1024 

1020 

1016 

1012 

1008 

1004 

1000 


(d) 


(e) 


A primeira coisa que um procedimento deve fazer quando chamado e salvar o FP anterior (de modo que 
possa ser restaurado na salda do procedimento), copiar SP para FP e talvez incrementa-lo por uma palavra, 
dependendo do lugar para onde, no novo quadro, o FP apontar. Nesse exemplo, o FP aponta para a primeira 
variavel local, porem, em IJVM, LV apontava para um ponteiro de ligagao. Maquinas diferentes manuseiam o 
ponteiro de quadro de modos ligeiramente diferentes, as vezes colocando-o na parte inferior do quadro de pilha, 
as vezes no topo e as vezes no meio, como na Figura 5.40. A esse respeito, vale a pena comparar a Figura 5.40 
com a Figura 4.12 para ver dois modos diferentes de controlar o ponteiro de ligagao. Outros modos tambem sao 
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posslveis. Em todos os casos, a chave e a capacidade de, mais tarde, poder fazer um procedimento retornar e 
restaurar o estado da pilha ao que era exatamente antes da chamada do procedimento corrente. 

O codigo que salva o ponteiro de quadro antigo, ajusta o novo e adianta o ponteiro de pilha para reservar 
espago para variaveis locais e denominado prologo de procedimento. A salda do procedimento, a pilha tern de 
ser limpa novamente, o que e chamado epilogo de procedimento. Uma das caracterlsticas mais importantes de 
qualquer computador e o tamanho e a rapidez do prologo e do epilogo de seus procedimentos. Se eles forem 
longos e lentos, as chamadas de procedimento serao caras. Programadores que adoram no altar da eficien- 
cia aprenderao a evitar escrever muitos procedimentos curtos e, em vez disso, escrever programas grandes, 
monollticos e nao estruturados. As instrugoes ENTER e LEAVE do Core i7 foram projetadas para executar com 
eficiencia grande parte do trabalho de prologo e epilogo do procedimento. E claro que elas tern um modelo 
particular para o modo de gerenciamento do ponteiro de quadro e, se o compilador tiver um modelo diferente, 
elas nao podem ser usadas. 

Agora, vamos voltar ao problema das Torres de Hanoi. Cada chamada de procedimento acrescenta um novo 
quadro a pilha e cada retorno de procedimento retira um quadro da pilha. Para ilustrar o uso de uma pilha na 
implementagao de procedimentos recursivos, rastrearemos as chamadas comegando com 

torres(3, 1, 3) 

A Figura 5.40(a) mostra a pilha logo apos essa chamada ter sido feita. Primeiro, o procedimento testa para ver se 
n = 1 e, ao descobrir que n = 3, preenche k e faz a chamada 

torres(2, 1, 2) 

Apos essa chamada ser conclulda, a pilha esta conforme mostra a Figura 5.40(b) e o procedimento comega de 
novo no inlcio (um procedimento chamado sempre comega no inlcio). Desta vez, o teste para n - 1 falha nova¬ 
mente, portanto, ele preenche k mais uma vez e faz a chamada 

torres(1, 1, 3) 

A pilha, portanto, esta como mostra a Figura 5.40(c) e o contador de programa aponta para o inlcio do procedi¬ 
mento. Desta vez, o teste e bem-sucedido e uma linha e impressa. Em seguida, o procedimento retorna retirando 
um quadro de pilha, ajustando FP e SP para a Figura 5.40(d). Entao, continua executando no enderego de retor¬ 
no, que e a segunda chamada: 

torres(1, 1, 2) 

Isso acrescenta um novo quadro a pilha, como mostra a Figura 5.40(e). Outra linha e impressa; apos o retorno, 
um quadro e retirado da pilha. As chamadas de procedimento continuam desse modo ate a chamada original 
concluir a execugao e o quadro da Figura 5.40(a) ser removido da pilha. Para entender melhor como a recursao 
funciona, recomendamos que voce simule a execugao completa de 

torres(3, 1, 3) 
usando lapis e papel. 

5.6.3 Corrotinas 

Na sequencia de chamada normal, ha uma clara distingao entre o procedimento que chama e o procedimento 
que e chamado. Considere um procedimento A, a esquerda, que chama um procedimento B, a direita na Figura 5.41. 

O procedimento B executa durante algum tempo e entao volta para A. A primeira vista, voce poderia conside- 
rar essa situagao simetrica, porque nem A nem B e um programa principal, porque ambos sao procedimentos. (O 
procedimento A pode ter sido chamado pelo programa principal, mas isso e irrelevante.) Alem do mais, primeiro 
o controle e transferido de A para B - a chamada - e mais tarde e transferido de B para A - o retorno. 
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Figura 5.41 Quando um procedimento e chamado, a execucao do procedimento sempre comeca na primeira declaracao do procedimento. 

A B 


Procedimento Procedimento 

que esta chamando chamado 



A assimetria surge do fato de que, quando o controle passa de A para B, o procedimento B comega a executar 
no inlcio; quando B retorna para A, a execugao nao comega no inlcio de A, mas na declaragao logo apos a cha- 
mada. Se A executar durante algum tempo e chamar B de novo, a execugao comega no inlcio de B novamente, e 
nao na declaragao logo apos o retorno anterior. Se, no curso da execugao, A chamar B muitas vezes, B comega no 
inlcio mais uma vez e todas as vezes, ao passo que A nunca reinicia. Ele apenas continua. 

Essa diferenga e refletida no metodo pelo qual o controle e passado entre A e B. Quando A chama B, usa 
a instrugao de chamada de procedimento, que coloca o enderego de retorno (isto e, o enderego da declaragao 
seguinte a chamada) em algum lugar util, por exemplo, no topo da pilha. Em seguida, coloca o enderego de B 
no contador de programa para concluir a chamada. Quando B retorna, nao usa a instrugao de chamada, e sim 
a instrugao de retorno, que simplesmente retira o enderego de retorno da pilha e o coloca dentro do contador 
de programa. 

As vezes, e util ter dois procedimentos, A e B, cada um dos quais chama o outro como um procedimento, 
como mostra a Figura 5.42. Quando B retorna A, desvia para a declaragao seguinte a chamada a B, como citado 
anteriormente. Quando A transfere o controle para B, nao vai ate o inlcio (exceto na primeira vez), mas ate a 
declaragao seguinte a mais recente “retorno”, isto e, a mais recente chamada de A. Dois procedimentos que fun- 
cionam dessa maneira sao denominados corrotinas. 
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Figura 5.42 


Quando uma corrotina e reiniciada, a execucao comeca na dedaracao de onde ela partiu da vez anterior, e nao no infcio. 


A 


B 


A chamado- 

a partir do 
programa principal 


A retorna — 
ao programa 
principal 



Uma utilizagao comum de corrotinas e simular o processamento paralelo em uma unica CPU. Cada corrotina 
executa em pseudoparalelismo com as outras, como se ela tivesse sua propria CPU. Esse estilo de programagao 
facilita a programagao de algumas aplicagoes. Tambem e util para testar software que mais tarde executara em 
um multiprocessador. 

Nem a instrugao CALL normal nem a instrugao RETURN normal funcionam para chamar corrotinas, porque 
o enderego para onde desviar vem da pilha como um retorno, mas, diferente de um retorno, a propria chamada 
de corrotina coloca um enderego de retorno em algum lugar para o subsequente retorno a ele. Seria bom se 
houvesse uma instrugao para permutar o topo da pilha com o contador de programa. Em detalhe, essa instrugao 
primeiro retiraria o enderego de retorno antigo da pilha para dentro de um registrador interno, em seguida pas- 
saria o contador de programa para a pilha e, por fim, copiaria o registrador interno para o contador de programa. 
Como uma palavra e retirada da pilha e uma palavra e passada para ela, o ponteiro de pilha nao se altera. Essa 
instrugao raramente existe, portanto, ela tern de ser simulada, assim como varias instrugoes na maioria dos casos. 

5.6.4 Excecoes 

Uma excegao (trap) e um tipo de chamada de procedimento automatica iniciada por alguma condigao 
causada pelo programa, em geral uma condigao importante, mas que ocorre raramente. Um bom exemplo e o 
transbordo (overflow). Em muitos computadores, se o resultado de uma operagao aritmetica for maior do que 
o maior numero que pode ser representado, ocorre uma excegao, o que significa que o fluxo de controle passa 
para algum local fixo de memoria em vez de continuar em sequencia. Nesse local fixo ha um desvio para uma 
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chamada de procedimento denominada tratador de excegao que executa alguma agao adequada, como imprimir 
uma mensagem de erro. Se o resultado de uma operagao estiver dentro da faixa, nao ocorre a excegao. 

O ponto essencial de uma excegao e que ela e iniciada por alguma condigao excepcional causada pelo pro- 
prio programa e detectada pelo hardware ou microprograma. Um metodo alternativo de tratar um transbordo e 
ter um registrador de 1 bit que e marcado em 1 sempre que ocorrer um transbordo. Um programador que quiser 
verificar o transbordo deve incluir uma instrugao expllcita de “desviar se bit de transbordo estiver marcado” apos 
cada instrugao aritmetica, o que e lento e desperdiga espago. Excegoes poupam tempo e memoria em comparagao 
com a verificagao controlada pelo programador. 

A excegao pode ser efetuada por um teste expllcito realizado pelo microprograma (ou hardware). Se um 
transbordo for detectado, o enderego da excegao e carregado no contador de programa. O que e uma excegao em 
um nivel pode estar sob controle do programa em um nivel mais baixo. Quando o microprograma faz o teste, ainda 
ha economia de tempo em comparagao com um teste de programador, porque e facil sobrepor o teste com alguma 
outra coisa. Tambem poupa memoria, porque so precisa ocorrer em um lugar, por exemplo, o lago principal do 
microprograma, pouco importando a quantidade de instrugoes aritmeticas que ocorram no programa principal. 

Algumas das condigoes comuns que podem causar excegoes sao transbordo ou erro de ponto flutuante, 
transbordo de inteiros, violagao de protegao, opcode indefinido, transbordo de pilha, tentativa de iniciar disposi- 
tivo de E/S inexistente, tentativa de buscar uma palavra em enderego de numero impar e divisao por zero. 

5.6.5 Interrupcoes 

Interrupgoes sao mudangas no fluxo de controle que nao sao causadas pelo programa em execugao, mas por 
alguma outra coisa, em geral relacionada a E/S. Por exemplo, um programa pode instruir o disco a iniciar a trans¬ 
ference de informagao e ajusta-lo para providenciar uma interrupgao tao logo a transference esteja concluida. 
Assim como a excegao, a interrupgao para o programa em execugao e transfere o controle para um tratador de 
interrupgao, que executa alguma agao adequada. Quando termina, o tratador de interrupgao devolve o controle 
ao programa interrompido, que deve reiniciar o processo exatamente no mesmo estado de quando ocorreu a 
interrupgao, o que significa restaurar todos os registradores internos a seu estado anterior a interrupgao. 

A diferenga essencial entre excegoes e interrupgoes e a seguinte: excegoes sao sincronas com o programa e 
interrupcoes sao assincronas. Se o programa for executado um milhao de vezes com a mesma entrada, as excegoes 
ocorrerao no mesmo lugar toda vez, mas as interrupgoes podem variar, dependendo, por exemplo, de quando, 
exatamente, quern estiver no terminal pressionar a tecla Enter. A razao para a possibilidade de reprodugao de 
excegoes e a impossibilidade dessa reprodugao e que as excegoes sao causadas diretamente pelo programa, e 
interrupgoes, no maximo, sao causadas indiretamente pelo programa. 

Para ver como as interrupgoes funcionam de fato, vamos considerar um exemplo comum: um computador quer 
enviar uma linha de caracteres para um terminal. O software do sistema primeiro reune todos os caracteres que devem 
ser escritos para o terminal em um buffer , inicializa uma variavel global ptr para apontar o inlcio do buffer e ajus- 
ta uma segunda variavel global count igual ao numero de caracteres a ser enviado. Entao, verifica se o terminal 
esta pronto. Se estiver, o computador envia o primeiro caractere (por exemplo, usando registradores como os da 
Figura 5.30). Apos iniciar a E/S, a CPU esta livre para executar outro programa ou fazer outra coisa. 

No seu devido tempo, o caractere e apresentado na tela. A interrupgao agora pode comegar. De forma sim- 
plificada, as etapas sao as seguintes. 

AQOES DO HARDWARE 

1. O controlador de dispositivo ativa uma linha de interrupgao no barramento de sistema para iniciar a 
sequencia de interrupgao. 
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2. Tao logo esteja preparada para tratar da interrupgao, a CPU ativa um sinal de reconhecimento de inter¬ 
rupgao no barramento. 

3. Quando o controlador de dispositivo ve que seu sinal de interrupgao foi reconhecido, coloca um inteiro 
pequeno nas linhas de dados para se identificar. Esse numero e denominado vetor de interrupgao. 

4. A CPU retira o vetor de interrupgao do barramento e o salva temporariamente. 

5. Entao, a CPU passa o contador de programa e a PSW para a pilha. 

6. Em seguida, a CPU localiza um novo contador de programa usando o vetor de interrupgao como um 
Indice para uma tabela na parte inferior da memoria. Se o contador for de 4 bytes, por exemplo, entao 
o vetor de interrupgao n corresponde ao enderego 4n. Esse novo contador de programa aponta para o 
inlcio da rotina de servigo da interrupgao para o dispositivo que causou a interrupgao. Muitas vezes, a 
PSW tambem e carregada ou modificada (por exemplo, para desabilitar mais interrupgoes). 

ACOES DO SOFTWARE 

7. A primeira coisa que a rotina de servigo de interrupgao faz e salvar todos os registradores que ela usa 
para poderem ser restaurados mais tarde. Eles podem ser salvos na pilha ou em uma tabela de sistema. 

8. Cada vetor de interrupgao e em geral compartilhado por todos os dispositivos de determinado tipo, 
portanto, ainda nao se sabe qual terminal causou a interrupgao. O numero do terminal pode ser encon- 
trado pela leitura de algum registrador de dispositivo. 

9. Agora pode ser lida qualquer outra informagao sobre a interrupgao, tal como codigos de estado. 

10. Se ocorrer um erro de E/S, ele pode ser tratado nesse caso. 

11. As variaveis globais, ptr e count, sao atualizadas. A primeira e incrementada para apontar para o proxi¬ 
mo byte, e a ultima e decrementada para indicar que resta 1 byte a menos para ser enviado. Se count 
ainda for maior do que 0, ha mais caracteres a enviar. Copia o caractere agora apontado por ptr para o 
registrador de buffer de salda. 

12. Se requerido, e produzido um codigo especial para informar ao dispositivo ou ao controlador de inter¬ 
rupgao que a interrupgao foi processada. 

13. Restaura todos os registradores salvos. 

14. Executa a instrugao RETURN FROM INTERRUPT, devolvendo a CPU ao modo e estado em que ela 
estava exatamente antes de acontecer a interrupgao. Entao, o computador continua de onde estava. 

Um conceito fundamental para interrupgoes e a transparency. Quando uma interrupgao acontece, algumas 
agoes sao realizadas e alguns codigos executados, mas, quando tudo terminar, o computador deve retornar ao 
estado identico em que estava antes da interrupgao. Uma rotina de interrupgao que tern essa propriedade e deno- 
minada transparente. Quando todas as interrupgoes o sao, e muito mais facil entende-las. 

Se um computador tiver apenas um dispositivo de E/S, entao as interrupgoes sempre funcionam como aca- 
bamos de descrever e nada mais ha a dizer a respeito delas. Entretanto, um computador de grande porte tern 
muitos dispositivos de E/S e varios deles podem estar em execugao ao mesmo tempo, possivelmente atendendo 
a diferentes usuarios. Existe uma probabilidade nao zero de que, enquanto uma rotina de interrupgao estiver 
executando, um segundo dispositivo de E/S queira gerar sua interrupgao. 

Duas abordagens podem ser adotadas para esse problema. Uma e que a primeira coisa que todas as rotinas 
de interrupgao devem fazer e desabilitar interrupgoes subsequentes, antes mesmo de salvar os registradores. Essa 
abordagem simplifica as coisas porque, entao, as interrupgoes sao processadas estritamente em sequencia, embora 
isso as vezes gere problemas para dispositivos que nao possam tolerar muito atraso. Se o primeiro ainda nao tiver 
sido processado quando o segundo chegar, podem-se perder dados. 
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Quando um computador tem dispositivos de E/S crlticos em relagao ao tempo, uma abordagem mais promis- 
sora de projeto e designar uma prioridade a cada dispositivo de E/S, alta para dispositivos muito crlticos e baixa 
para os menos crlticos. De modo semelhante, a CPU tambem deve ter prioridades, em geral determinadas por 
um campo na PSW. Quando um dispositivo de prioridade n interrompe, a rotina de interrupgao tambem deve 
executar em prioridade n. 

Enquanto uma rotina de interrupgao de prioridade n estiver executando, qualquer tentativa de um dispo¬ 
sitivo de prioridade mais baixa para causar uma interrupgao e ignorada ate que a rotina de interrupgao esteja 
conclulda e a CPU volte a executar codigo de prioridade mais baixa. Por outro lado, interrupgoes de dispositivos 
de prioridade mais alta devem ter permissao de acontecer sem qualquer demora. 

Como as proprias rotinas de interrupgao estao sujeitas a interrupgao, a melhor maneira de manter a adminis- 
tragao em dia e garantir que todas as interrupgoes sejam transparentes. Vamos considerar um exemplo simples de 
varias interrupgoes. Um computador tem tres dispositivos de E/S, uma impressora, um disco e uma linha RS232 
(serial), com prioridades 2, 4 e 5, respectivamente. No inlcio (t = 0), um programa do usuario esta rodando 
quando, de repente, em t = 10, ocorre uma interrupgao da impressora. A rotina de servigo de interrupgao (ISR) 
da impressora e iniciada, como mostra a Figura 5.43. 


Figura 5.43 


Exemplo de sequencia temporal de interrupcoes multiplas. 
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Em t = 15, a linha RS232 quer atengao e gera uma interrupgao. Uma vez que a linha RS232 tem prioridade mais 
alta (5) do que a impressora (2), a interrupgao acontece. O estado da maquina, que agora esta executando a rotina de 
servigo de interrupgao da impressora, e passado para a pilha, e a rotina de servigo de interrupgao de RS232 e iniciada. 

Um pouco mais tarde, em t = 20, o disco conclui e quer servigo. Contudo, sua prioridade (4) e mais baixa 
do que a da rotina de interrupgao que esta executando nesse momento (5), portanto, o hardware da CPU nao 
reconhece a interrupgao e ela e mantida pendente. Em t = 25, a rotina de RS232 esta conclulda, portanto, ela 
volta ao estado em que estava um pouco antes de acontecer a interrupgao de RS232, ou seja, ao executar a rotina 
de servigo de interrupgao da impressora na prioridade 2. Tao logo a CPU muda para prioridade 2, antes mesmo 
que uma instrugao possa ser executada, a interrupgao de disco em prioridade 4 recebe permissao de entrar e a 
rotina de servigo do disco e executada. Quando termina, a rotina da impressora consegue continuar. Por fim, em 
t = 40, todas as rotinas de servigo de interrupgao ja terminaram e o programa do usuario continua de onde parou. 
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Desde o 8088, os chips de CPU da Intel tem dois nlveis de interrupgao (prioridades): mascaraveis e nao 
mascaraveis. Interrupgoes nao mascaraveis em geral so sao usadas para sinalizar quase catastrofes, tais como erros 
de paridade de memoria. Todos os dispositivos de E/S usam uma interrupgao mascaravel. 

Quando um dispositivo de E/S emite uma interrupgao, a CPU usa o vetor de interrupgao para indexar uma 
tabela de 256 entradas para achar o enderego da rotina de servigo de interrupgao. As entradas da tabela sao des- 
critores de segmento de 8 bytes e a tabela pode comegar em qualquer lugar da memoria. Um registrador global 
aponta para seu inlcio. 

Com um unico nivel de interrupgao usavel, nao ha modo de a CPU permitir que um dispositivo de alta 
prioridade interrompa uma rotina de servigo de interrupgao de media prioridade e, ao mesmo tempo, prolba 
um dispositivo de baixa prioridade de fazer o mesmo. Para resolver esse problema, as CPUs da Intel costu- 
mam ser usadas com um controlador de interrupgao externo (por exemplo, um 8259A). Quando a primeira 
interrupgao chega, por exemplo, em prioridade n, a CPU e interrompida. Se uma interrupgao subsequente 
chegar e tiver uma prioridade mais alta, o controlador de interrupgao interrompe uma segunda vez. Se a 
segunda interrupgao tiver prioridade mais baixa, ela e retida ate que a primeira tenha concluldo. Para fazer 
esse esquema funcionar, o controlador de interrupgao deve saber quando a rotina de servigo de interrupgao 
corrente esta conclulda, portanto, a CPU deve lhe enviar um comando quando a interrupgao corrente estiver 
totalmente processada. 


5.7 Um exemplo detalhado: as lorres de Hanoi 

Agora que ja estudamos a ISA de tres maquinas, vamos reunir todas as pegas e examinar em detalhe o mesmo 
exemplo de programa para as duas maquinas maiores. Nosso exemplo e o programa das Torres de Hanoi. Demos 
uma versao Java desse programa na Figura 5.39. Nas segoes seguintes, daremos programas em codigo de monta- 
gem para as Torres de Hanoi. 

Entretanto, faremos uma pequena trapaga. Em vez de dar a tradugao da versao Java, para o Core i7 e a CPU 
ARM do OMAP4430, daremos a tradugao de uma versao em C, para evitar alguns problemas com E/S em Java. A 
unica diferenga e a substituigao da chamada Java para println pela declaragao padrao em C 

printffMova um disco de %d para %d\n”, i, j) 

Para nossa finalidade, a sintaxe das cadeias do forma to printf nao e importante. Em essencia, a cadeia e 
impressa literalmente, exceto que %d significa “imprima o proximo inteiro em decimal”. A unica coisa relevante 
nesse caso e que o procedimento e chamado com tres parametros: uma cadeia de forma to e dois inteiros. 

A razao para usar a versao em C para o Core i7 e a CPU ARM do OMAP4430 e que a biblioteca Java de 
E/S nao esta disponlvel em forma nativa para essas maquinas, ao passo que a biblioteca em C esta. A diferenga e 
minima e afeta somente a unica declaragao de imprimir. 

5.7.1 As Torres de Hanoi em linguagem de montagem do Core i7 

A Figura 5.44 da uma tradugao posslvel da versao em C das Torres de Hanoi para o Core i7. Em sua maior 
parte, a tradugao e razoavelmente direta. O registrador EBP e usado como o ponteiro de quadro. As duas primei- 
ras palavras sao usadas para ligagao, de modo que o primeiro parametro real, n (ou N aqui, porque e indiferente 
se MASM e escrita em maiusculas ou minusculas), esta em EBP + 8, seguido por i e j em EBP + 12eEBP + 16, 
respectivamente. A variavel local, k, esta em EBP + 20. 

O procedimento comega estabelecendo o novo quadro no final do antigo, copiando ESP para o ponteiro de 
quadro, EBP. Entao ele compara n com 1, desviando para a clausula else se n > 1. O codigo then passa tres valores 
para a pilha: o enderego da cadeia de forma to, i e j, e chama a si mesmo. 
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Figura 5.44 Torres de Hanoi para o Core i7. 

. 686 ; 

.MODEL FLAT 
PUBLIC _torres 
EXTERN _printf:NEAR 
.CODE 

Jorres: PUSH EBP 

MOV EBP, ESP 
CMP [EBP+8], 1 
JNE LI 

MOV EAX, [EBP+16] 

PUSH EAX 

MOV EAX, [EBP+12] 

PUSH EAX 

PUSH OFFSET FLAT:format 
CALL _printf 
ADD ESP, 12 
JMP Fim 

LI: MOV EAX, 6 

SUB EAX, [EBP+12] 

SUB EAX, [EBP+16] 

MOV [EBP+20], EAX 

PUSH EAX 

MOV EAX, [EBP+12] 

PUSH EAX 
MOV EAX, [EBP+8] 

DEC EAX 
PUSH EAX 
CALL Jorres 
ADD ESP, 12 
MOV EAX, [EBP+16] 

PUSH EAX 

MOV EAX, [EBP+12] 

PUSH EAX 
PUSH 1 
CALL Jorres 
ADD ESP, 12 
MOV EAX, [EBP+12] 

PUSH EAX 

MOV EAX, [EBP+20] 

PUSH EAX 
MOV EAX, [EBP+8] 

DEC EAX 
PUSH EAX 
CALL Jorres 
ADD ESP, 12 
Fim: LEAVE 

RETO 

.DATA 

format DB "Mova disco de %d para %d\n" 
END 


compile para processador da classe Core i7 

; exporte Torres' 

; importe printf 

; salve EBP (ponteiro de quadro) e decremente ESP 
; ajuste novo ponteiro de quadro acima de ESP 
; se (n == 1) 

; desvie se n nao for 1 
; printf("i, j); 

; note que os parametros i, j e a cadeia 
; de formato sao passados para a pilha em ordem 
; inversa. Essa e a convengao de chamada em C 
; OFFSET FLAT significa enderego de formato 
; chame printf 
; retire parametros da pilha 
; terminamos 
; inicie k = 6 — i — j 
; EAX = 6 - i 
; EAX = 6 — i — j 
; k = EAX 

; inicie torres(n - 1, i, k) 

; EAX = i 
; passei 
; EAX = n 
; EAX = n - 1 
; passe n - 1 

; chame torres(n - 1, i, 6 - i - j) 

; retire parametros da pilha 
; inicie torres(1, i, j) 

; passe j 
; EAX = i 
; passei 
; passe 1 

; chame torres(1, i, j) 

; retire parametros da pilha 
; inicie torres(n - 1, 6 - i - j, i) 

; passei 
; EAX = k 
; passe k 
; EAX = n 
; EAX = n - 1 
; passe n - 1 

; chame torres(n - 1, 6 - i - j, i) 

; ajuste ponteiro de pilha 
; prepare para sair 
; retorne ao chamador 

; cadeia de formato 


Os parametros sao passados em ordem inversa, o que e exigido por programas em C. Isso e necessario 
para colocar o ponteiro para a cadeia de formato no topo da pilha. Uma vez que printf tern um numero variavel 
de parametros, se estes fossem passados em ordem direta, printf nao saberia qual a profundidade da cadeia de 
formato na pilha. 

Apos a chamada, 12 e somado ao ESP para retirar os parametros da pilha. E claro que eles nao sao apagados 
de verdade da memoria, mas o ajuste de ESP os torna inacesslveis para operaqoes normais de pilha. 
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A clausula else, que comega em LI, e direta. Em primeiro lugar, ela calcula 6 - i - j e armazena esse valor 
em k. Nao importa quais valores i e j tenham, a terceira estaca e sempre 6 — i—j. Salva-lo em k poupa o trabalho 
de recalcular o valor uma segunda vez. 

Em seguida, o procedimento chama a si mesmo tres vezes, cada vez com parametros diferentes. Apos a cha- 
mada, a pilha e limpa. E isso e tudo. 

As vezes, os procedimentos recursivos confundem as pessoas no princlpio, mas, quando vistos nesse nlvel, eles 
sao diretos. Tudo o que acontece e que os parametros sao passados para a pilha e o procedimento chama a si mesmo. 


5.7.2 As Torres de Hanoi em linguagem de montagem da CPU ARM do OMAP4430 

Agora, vamos ten tar novamente, so que, desta vez, para a ARM do OMAP4430. O codigo esta relacionado na 
Figura 5.45. Como o codigo da ARM do OMAP4430 e especialmente diflcil de ler, mesmo como codigo de monta¬ 
gem, e ainda que tenhamos muita pratica, tomamos a liberdade de definir alguns slmbolos no inlcio, para deixa-lo 
mais claro. Para que isso funcione, o programa tern de ser executado por meio de um programa denominado cpp, 
o pre-processador C, antes de monta-lo. Alem disso, usamos letras minusculas aqui, porque o assembler da ARM 
do OMAP4430 insiste nelas (caso algum leitor queira digitar o programa em seu computador). 


* Figura 5.45 Torres de Hanoi para a ARM do 0MAP4430. 


#define ParamO 

rO 

#define Paraml 

rl 

#define Param2 

r2 

#define FormatPtr 

rO 

#define k 

r7 

#define n_minus_1 

r5 


.text 

torres: push {r3, r4, r5, r6, r7, lr} 

mov r4, Paraml 
mov r6, Param2 
cmp ParamO, #1 
bne else 

movw FormatPtr, #:lower 16:format 
movt FormatPtr, #:upper16:format 
bl printf 

pop {r3, r4, r5, r6, r7, pc} 

else: rsbk, r1,#6 

subs k, k, r2 
add n_minus_1, rO, #-1 
mov rO, n_minus_1 
mov r2, k 
bl torres 
mov rO, #1 
mov rl, r4 
mov r2, r6 
bl torres 

mov rO, n_minus_1 
mov rl, k 
mov r2, r6 
bl torres 

pop {r3, r4, r5, r6, r7, pc} 

.global main 
main: push {lr} 

mov ParamO, #3 
mov Paraml, #1 
mov Param2, ParamO 
bl torres 
pop {pc} 

format: .ascii "Mova um disco de %d para %d\n\0" 


@ salve enderego de retorno e registradores mexidos 
@ (n == 1)? 

@ se nao, salte para sequencia de codigo else 
@ carregue ponteiro da cadeia de formato 

@ mova para imprimir 
@ k = 6 - i - j 

@ calcule (n - 1) para chamada recursiva 
@ chame torres(n - 1, i, k) 

@ chame torres(1, k, j) 

@ chame torres(n - 1, k, j) 

@ restaure registradores mexidos e retorne ao chamador 
@ salve enderego de retorno do chamador 

@ chame torres(3, 1,3) 

@ retire enderego de retorno, retorne ao chamador 
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Em termos de algoritmo, a versao ARM do OMAP4430 e identica a versao Core i7. Ambas testam n para 
comegar, desviando para a clausula else se n > 1. A principal complexidade da versao ARM se deve a algumas 
propriedades da ISA. 

Para comegar, a ARM do OMAP4430 tem de passar o enderego da cadeia de formato para print/, mas a maqui- 
na nao pode apenas mover o enderego para o registrador que contem o parametro que esta saindo porque nao ha 
nenhum modo de colocar uma constante de 32 bits em um registrador em uma unica instrugao. E preciso duas 
instrugoes para fazer isso, MOVW e MOVT. 

A proxima coisa a notar e que os ajustes da pilha sao tratados automaticamente pelas instrugoes PUSH e POP 
no inlcio e no final das fungoes. Essas instrugoes tambem cuidam de salvar e restaurar o enderego de retorno, 
salvando o registrador LR na entrada e restaurando o PC na salda da fungao. 


5.8 A arquitetura IA-64 e o Itanium 2 

A Intel esta chegando depressa ao ponto em que ja espremeu quase a ultima gota de sumo da ISA IA-32 e 
da linha de processadores Core i7. Novos modelos ainda podem se beneficiar dos avangos da tecnologia de fabri- 
cagao, o que significa transistores menores - e, portanto, maiores velocidades de clock. Todavia, descobrir novos 
truques para acelerar ainda mais a implementagao esta ficando cada vez mais diflcil a medida que as limitagoes 
impostas pela ISA IA-32 aumentam cada vez mais. 

Alguns engenheiros acharam que a unica solugao real era abandonar a IA-32 como linha principal de desen- 
volvimento e passar para uma ISA totalmente nova. Na verdade, foi para isso que a Intel comegou a trabalhar. 
De fato, ela tinha pianos para duas novas arquiteturas. A EMT-64 e uma versao mais larga da tradicional ISA 
do Pentium, com registradores de 64 bits e espago de enderegos de 64 bits. Essa nova ISA resolve o problema do 
espago de enderegos, mas ainda tem todas as complexidades da execugao de suas antecessoras. Ela pode ser mais 
bem considerada como um Pentium mais largo. 

A outra nova arquitetura, desenvolvida em conjunto pela Intel e Hewlett-Packard, e denominada IA-64. E 
uma maquina completa de 64 bits do inlcio ao fim, e nao uma extensao de uma maquina de 32 bits ja existen- 
te. Alem do mais, em muitos aspectos e uma ruptura radical em relagao a arquitetura IA-32. O mercado inicial 
sao os servidores de alta tecnologia, mas, com o tempo, pode migrar para o mundo dos computadores de mesa. 
De qualquer modo, a arquitetura e tao radicalmente diferente de tudo que estudamos ate agora que vale a pena 
estuda-la so por essa razao. A primeira implementagao da arquitetura IA-64 e a serie Itanium. No restante desta 
segao, estudaremos a arquitetura IA-64 e a CPU Itanium 2 que a implementa. 

5.8.1 0 problema da ISA IA-32 

Antes de entrar nos detalhes da IA-64 e do Itanium 2, e bom revisar o que esta errado na ISA IA-32 para ver 
quais problemas a Intel estava tentando resolver com a nova arquitetura. O principal fato da vida que causa todo 
o problema e que a IA-32 e uma ISA antiga com todas as propriedades erradas para a tecnologia atual. E uma ISA 
CISC com instrugoes de comprimento variavel e inumeros formatos diferentes que sao diflceis de codificar com 
rapidez durante a execugao. A tecnologia atual funciona melhor com ISAs RISC que tem um unico comprimento 
de instrugao e um opcode de comprimento fixo, facil de decodificar. As instrugoes IA-32 podem ser desmembra- 
das em micro-operagoes semelhantes a RISC durante a execugao, mas isso requer hardware (area de chip), toma 
tempo e agrega complexidade ao projeto. Esse e o primeiro golpe. 

A IA-32 tambem tem uma ISA de dois enderegos, com base em memoria. A maioria das instrugoes referen- 
cia a memoria, e grande parte dos programadores e compiladores nao se preocupa muito com referenciar a memoria 
o tempo todo. A tecnologia atual favorece ISAs do tipo carregue/armazene, que so referenciam a memoria para 
passar operandos para registradores, porem, quanto ao mais, efetuam todos os seus calculos usando instrugoes de 



334 


Organizacao estruturada de computadores 


registrador com tres enderegos de memoria. Como as velocidades de clock das CPUs estao crescendo com rapidez 
muito maior do que as velocidades de memoria, o problema ficara pior com o tempo. Esse e o segundo golpe. 

A IA-32 tern um conjunto de registradores pequeno e irregular. Alem de dar um no nos compiladores, essa 
pequena quantidade de registradores de uso geral (quatro ou seis, dependendo de como voce conta ESI e EDI) 
requer que resultados intermediaries sejam despejados na memoria o tempo todo, gerando referencias extras a 
memoria, mesmo quando a logica nao as exige. Esse e o terceiro golpe. A IA-32 perde por nocaute tecnico. 

Agora, vamos para o segundo round. A pequena quantidade de registradores causa muitas dependences, em 
especial dependences WAR desnecessarias, porque os resultados tern de ir para algum lugar e nao ha registrado¬ 
res extras disponlveis. Contornar a falta de registradores requer que a execugao realize renomeagao internamen- 
te - uma tarefa tediosa como poucas - para registradores secretos dentro do buffer de reordenagao. Para evitar 
bloqueios por ausencias da cache muito frequentes, as instrugoes tern de ser executadas fora de ordem. Contudo, 
a semantica da IA-32 especifica interrupgoes precisas, portanto, as instrugoes fora de ordem tern de ser retiradas 
em ordem. Tudo isso exige muito hardware complexo. Mais um golpe. 

Realizar todo esse trabalho depressa requer profundo paralelismo. Por sua vez, tal paralelismo significa que 
as instrugoes que entram nele levam muitos ciclos antes de ser concluldas. Por conseguinte, e essencial que a 
previsao de desvio seja muito precisa para garantir que as instrugoes certas estao entrando no paralelismo. Como 
uma ma previsao requer a descarga do paralelismo, com grande custo, ate mesmo uma taxa bastante baixa de ma 
previsao pode causar uma degradagao substancial do desempenho. Outro golpe certeiro. 

Para atenuar os problemas causados pela ma previsao, o processador tern de fazer execugao especulativa, 
com todos os problemas que isso acarreta, em especial quando referencias a memoria no caminho errado causam 
uma excegao. Cruzado de direita. 

Podemos passar por uma luta de boxe inteira, mas a essa altura ja deve ter ficado claro que ha um problema 
real. E nem sequer mencionamos o fato de que os enderegos de 32 bits da IA-32 limitam programas individuals a 
4 GB de memoria, o que e um grande problema nos servidores. O EMT-64 resolve esse problema, mas nao todos 
os outros. 

Levando tudo isso em conta, a situagao da IA-32 pode ser comparada favoravelmente com o estado da mecani- 
ca celestial um pouco antes de Copernico. A teoria dominante na astronomia naquela epoca era de que a Terra era 
fixa e imovel no espago e que os planetas se moviam em clrculos com epiciclos ao seu redor. Contudo, a medida 
que as observagoes ficavam melhores e mais desvios em relagao a esse modelo podiam ser claramente observados, 
epiciclos eram adicionados a epiciclos ate que todo o modelo desabou sob o peso de sua complexidade interna. 

Agora, a Intel esta nessa mesma situagao embaragosa. Uma enorme fragao de todos os transistores do Core 
i7 e dedicada a decompor instrugoes CISC, distinguir o que pode ser feito em paralelo, resolver conflitos, fazer 
previsoes, sanar as consequencias de previsoes incorretas e outros controles, sobrando uma quantidade surpreen- 
dentemente pequena deles para executar o trabalho real que o usuario solicitou. A conclusao a que a Intel esta 
chegando e a unica sensata: detonar a coisa toda (IA-32) e comegar de novo com um quadro limpo (IA-64). A 
EMT-64 ainda tern um pouco de folego, mas, na realidade, tenta disfargar a questao da complexidade. 

5.8.2 0 modelo IA-64: computacao por instrucao explicitamente paralelo 

A ideia fundamental da IA-64 e transferir trabalho do tempo de execugao para o tempo de compilagao. No 
Core i7, durante a execugao a CPU reordena instrugoes, renomeia registradores, escalona unidades funcionais e 
realiza muitas outras tarefas para determinar como manter todos os recursos de hardware totalmente ocupados. 
No modelo IA-64, o compilador decifra todas essas coisas com antecedencia e produz um programa que pode ser 
executado tal como e, sem que o hardware tenha de fazer malabarismos durante a execugao. Por exemplo, em vez 
de dizer ao compilador que a maquina tern oito registradores, quando na verdade tern 128, e entao tentar imaginar 
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durante o tempo de execugao como evitar dependences, no modelo IA-64 o compilador sabe quantos registra- 
dores a maquina de fa to tem, de modo que, antes de tudo, pode produzir um programa que nao tem nenhum 
conflito de registrador. De maneira semelhante, nesse modelo o compilador monitora quais unidades funcionais 
estao ocupadas e nao emite instrugoes que usam unidades funcionais que nao estao disponlveis. O modelo que 
torna o paralelismo subjacente no hardware visivel para o compilador e denominado EPIC (Explicitly Parallel 
Instruction Computing - computagao com instrugoes explicitamente paralelas). Ate certo ponto, EPIC pode 
ser considerada sucessora da RISC. 

O modelo IA-64 tem varias caracterlsticas que aceleram o desempenho. Entre elas, estao redugao de referen¬ 
ces a memoria, escalonamento de instrugoes, redugao de desvios condicionais e especulagao. Agora, estudaremos 
cada uma delas separadamente e discutiremos como elas sao implementadas no Itanium 2. 

5.8.3 Reducao de referencias a memoria 

O Itanium 2 tem um modelo de memoria simples. A memoria consiste em ate 2 64 bytes de memoria linear. 
Instrugoes estao disponlveis para acessar memoria em unidades de 1, 2, 4, 8, 16 e 10 bytes, a ultima para numeros 
de ponto flutuante de 80 bits padrao IEEE 745. Referencias a memoria nao precisam estar alinhadas por suas fron- 
teiras naturais, mas o desempenho incorre em uma penalidade se nao estiverem. A memoria pode ser big-endian ou 
little-endian , o que e determinado por um bit em um registrador que pode ser carregado pelo sistema operacional. 

O acesso a memoria e um enorme gargalo em todos os computadores modernos porque as CPUs sao muito 
mais rapidas do que a memoria. Um modo de reduzir referencias a memoria e ter uma cache de nivel 1 grande 
no chip e uma de nivel 2 maior ainda proxima ao chip. Todos os projetos modernos tem essas duas caches. Mas 
nao devemos nos restringir as caches na busca de outros modos de reduzir referencias a memoria, e a IA-64 usa 
alguns desses modos. 

O melhor modo de acelerar referencias a memoria e, antes de qualquer coisa, evita-las. A implementagao 
Itanium 2 do modelo IA-64 tem 128 registradores de uso geral de 64 bits. Os primeiros 32 sao estaticos, mas os 
96 restantes sao usados como uma pilha de registradores, muito semelhante ao esquema de janela de registradores 
em outros processadores RISC, como o UltraSPARC. Contudo, diferente do UltraSPARC, o numero de registrado¬ 
res visiveis para o programa e variavel e pode mudar de um procedimento para outro. Assim, cada procedimento 
tem acesso a 32 registradores estaticos e a algum numero (variavel) de registradores de alocagao dinamica. 

Quando um procedimento e chamado, o registrador ponteiro de pilha e avangado, de modo que os parame- 
tros de entrada sao visiveis em registradores, mas nenhum registrador e alocado para variaveis locais. E o proprio 
procedimento que decide de quantos registradores precisa e avanga o registrador ponteiro de pilha para aloca- 
-los. Esses registradores nao precisam ser salvos na entrada nem restaurados na salda, embora, se o procedimento 
precisar modificar um registrador estatico, deve ter o cuidado de salva-lo explicitamente antes e restaura-lo mais 
tarde. Por ter numero variavel de registradores disponlveis e talhados para o que cada procedimento precisa, os 
registradores, um recurso escasso, nao sao desperdigados, e chamadas de procedimento podem se aprofundar 
antes de os registradores terem de ser descarregados para a memoria. 

O Itanium 2 tambem tem 128 registradores de ponto flutuante em formato IEEE 745, que nao funcionam 
como uma pilha de registradores. Esse numero muito grande de registradores significa que muitos calculos com 
ponto flutuante podem manter todos os seus resultados intermediarios em registradores e evitar o armazenamen- 
to temporario de resultados na memoria. 

Tambem ha 64 registradores de predicados de 1 bit, oito registradores de desvio e 128 registradores de apli- 
cagao de uso especial utilizados para varias finalidades, tal como passar parametros entre programas de aplicagao 
e o sistema operacional. Uma visao geral dos registradores do Itanium 2 e dada na Figura 5.46. 
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Figura 5.46 


Registradores do Itanium 2. 
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5.8.4 Escalonamento de instrucoes 

Um dos principals problemas do Core i7 e a dificuldade de escalonar as varias instrugoes pelas varias uni- 
dades funcionais e evitar dependences. Sao necessarios mecanismos de alta complexidade para manipular todas 
essas questoes em tempo de execugao, e uma grande fragao da area do chip e dedicada a seu gerenciamento. A 
IA-64 e o Itanium 2 evitam todos esses problemas porque e o compilador que faz o trabalho. A ideia fundamen¬ 
tal e que o programa consista em uma sequencia de grupos de instrugoes. Dentro de certas fronteiras, todas as 
instrugoes dentro de um grupo nao entram em conflito umas com as outras, nao usam mais unidades funcionais 
e recursos do que a maquina tern, nao contem dependences RAW e WAW e tern somente dependences WAR 
restritas. Grupos de instrugoes consecutivos parecem estar sendo executados estritamente em sequence, sendo que 
o segundo grupo nao comega ate que o primeiro seja concluldo. Entretanto, a CPU pode iniciar o segundo grupo, 
em parte, assim que perceber que e seguro fazer isso. 

Como consequencia dessas regras, a CPU fica livre para escalonar as instrugoes dentro de um grupo na 
ordem que preferir, possivelmente em paralelo, se puder, sem ter de se preocupar com conflitos. Se o grupo de 
instrugoes violar as regras, o comportamento do programa e indefinido. Cabe ao compilador reordenar o codigo 
de montagem gerado pelo programa-fonte de modo a satisfazer todos esses requisitos. Para compilagao rapida 
enquanto um programa esta sendo depurado, o compilador pode colocar cada instrugao em um grupo diferente, 
o que e facil de fazer, mas resulta em mau desempenho. Quando e hora de produzir codigo de produgao, o com¬ 
pilador pode gas tar um longo tempo a otimiza-lo. 

Instrugoes sao organizadas em pacotes de 128 bits, como mostra a parte superior da Figura 5.47. Cada paco- 
te contem tres instrugoes de 41 bits e um gabarito de 5 bits. Um grupo de instrugoes nao precisa ter um numero 
inteiro de pacotes; pode comegar e terminar no meio de um pacote. 

Existem mais de cem formatos de instrugao. Um forma to tlpico, nesse caso, para operagoes de ULA como ADD, 
que soma dois registradores e envia o resultado para um terceiro, e mostrado na Figura 5.47. O primeiro campo, 
GRUPO DE OPERA Q AO, e o grupo principal e informa a classe geral da instrugao, como uma operagao de ULA 
com inteiros. O proximo campo, TIPO DE OPERACAO, da a operagao especlfica requerida, tal como ADD ou 
SUB. Em seguida, vem os tres campos de registrador. Por fim, temos o REGISTRADOR DE PREDICADO, que 
sera descrito em breve. 
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Figura 5.47 0 pacote IA-64 contem tres instrucoes. 
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O gabarito do pacote informa quais unidades funcionais o pacote necessita e tambem a posigao da fronteira 
de um grupo de instrugao presente, se houver. As principais unidades funcionais sao a ULA de inteiros, as ins¬ 
trugoes nao ULA de inteiros, operagoes de memoria, operagoes de ponto flutuante, desvios e outras. E claro que, 
com seis unidades e tres instrugoes, a ortogonalidade completa exigiria 216 combinagoes, mais outras 216 para 
indicar um marcador de grupo de instrugao apos a instrugao 0, mais outras 216 para indicar um marcador de grupo 
de instrugao apos a instrugao 1, e ainda mais outras 216 para indicar um marcador de grupo de instrugao apos a 
instrugao 2. Com so 5 bits disponlveis, apenas um numero muito limitado dessas combinagoes e permitido. Por 
outro lado, permitir tres instrugoes de ponto flutuante em um pacote nao funcionaria, nem mesmo se houvesse 
um modo de especificar isso, ja que a CPU nao pode iniciar tres instrugoes de ponto flutuante em simultaneo. 
Combinagoes permitidas sao as que, na verdade, sao viaveis. 

5.8.5 Reducao de desvios condicionais: predicacao 

Outra caracterlstica importante da IA-64 e a nova maneira com que ela lida com desvios condicionais. Se 
houvesse um meio de se livrar da maioria deles, as CPUs poderiam ser mais simples e mais rapidas. A primeira 
vista, poderia parecer imposslvel ficar livre de desvios condicionais porque programas estao repletos de declara- 
goes do tipo if. Contudo, a IA-64 usa uma tecnica denominada predicagao, que pode reduzir muito seu numero 
(August et al., 1998; e Hwu, 1998). Agora, vamos fazer uma descrigao resumida dessa tecnica. 

Em arquiteturas tradicionais, todas as instrugoes sao incondicionais, no sentido de que, quando a CPU atinge 
uma instrugao, ela apenas a executa. Nao ha nenhum debate interno do tipo: “Fazer ou nao fazer, eis a questao”. 
Ao contrario, em uma arquitetura predicada, as instrugoes contem condigoes (predicados) que informam quan¬ 
do devem e quando nao devem ser executadas. Essa mudanga de paradigma de instrugoes incondicionais para 
instrugoes predicadas e o que possibilita que nos livremos de (muitos) desvios condicionais. Em vez de ter de 
escolher entre uma ou outra sequencia de instrugoes incondicionais, todas as instrugoes sao fundidas em uma 
unica sequencia de instrugoes predicadas, usando diferentes predicados para diferentes instrugoes. 

Para ver como funciona a predicagao, vamos comegar com o exemplo simples da Figura 5.48, que mostra 
a execugao condicional, uma precursora da predicagao. Na Figura 5.48(a), vemos uma declaragao if. Na Figura 
5.48(b), vemos sua tradugao para tres instrugoes: uma instrugao de comparagao, uma de desvio condicional e 
uma de movimentagao. 
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Figura 5.48 (a) Declaracao if. (b) Codigo generico de montagem para (a), (c) Instrucao condicional. 

if (R1 == 0) CMP R1,0 CMOVZ R2,R3,R1 

R2 = R3; BNE LI 

MOV R2,R3 
LI: 

(a) (b) (c) 


Na Figura 5.48(c), nos livram do desvio condicional usando uma nova instrugao, CMOVZ, que e uma movi- 
mentagao condicional. Sua fungao e verificar se o terceiro registrador, R1 , e 0. Se for, ele copia R3 para R2. Se 
nao for, nada faz. 

Uma vez que temos uma instrugao que pode copiar dados quando algum registrador for 0, a partir dal e 
um pequeno passo para uma instrugao que possa copiar dados quando algum registrador nao for 0, por exem- 
plo, CMOVN. Se ambas as instrugoes estiverem disponlveis, estamos na rota da execugao condicional completa. 
Imagine uma declaragao if com varias atribuigoes na parte then e varias outras atribuigoes na parte else. A decla¬ 
ragao inteira pode ser traduzida para codigo que define algum registrador como 0 se a condigao for falsa e como 
outro valor se ela for verdadeira. Em seguida a definigao do registrador, as atribuigoes da parte then podem ser 
compiladas em uma sequencia de instrugoes CMOVN e as atribuigoes da parte else podem ser compiladas em 
uma sequencia de instrugoes CMOVZ. 

Todas essas instrugoes, a definigao do registrador, as CMOVN e as CMOVZ formam um unico bloco basico 
sem nenhum desvio condicional. As instrugoes podem ate mesmo ser reordenadas, seja pelo compilador (incluin- 
do elevar as atribuigoes para antes do teste), seja durante a execugao. O unico senao e que a condigao tern de 
ser conhecida na hora em que as instrugoes devem ser retiradas (proximo ao final do paralelismo). Um exemplo 
simples que mostra a parte then e a parte else e dado na Figura 5.49. 


Figura 5.49 (a) Declaracao if. (b) Codigo generico de montagem para (a), (c) Execucao condicional. 


if (R1 == 0) { 

CMP R1,0 

CMOVZ R2,R3,R1 

R2 = R3; 

BNE LI 

CMOVZ R4,R5,R1 

R4 = R5; 

MOV R2,R3 

CMOVN R6,R7,R1 

} else { 

MOV R4,R5 

CMOVN R8,R9,R1 

R6 = R 7; 

BR L2 


CL 

ll 

00 

CL 

LI: MOV R6,R7 


) 

MOV R8,R9 



L2: 


(a) 

(b) 

(c) 


Embora tenhamos mostrado instrugoes condicionais muito simples aqui (na verdade, tiradas da ISA IA-32), 
na IA-64 todas elas sao predicadas. Isso significa que a execugao de toda instrugao pode ser transformada em 
condicional. O campo extra de 6 bits a que nos referimos antes seleciona um dos 64 registradores de predicado de 
1 bit. Assim, uma declaragao if sera compilada para codigo que marca um dos registradores de predicado como 1 
se a condigao for verdadeira e como 0 se ela for falsa. De maneira simultanea e automatica, ela marca outro regis¬ 
trador de predicado como o valor inverso. Usando predicagao, as instrugoes de maquina que formam as clausulas 
then e else serao fundidas em uma unica cadeia de instrugoes, as primeiras usando o predicado e as ultimas seu 
inverso. Quando o controle passa por la, apenas um conjunto de instrugoes sera executado. 
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Embora simples, o exemplo da Figura 5.50 mostra a ideia basica de como a predicagao pode ser usada para 
eliminar desvios. A instrugao CMPEQ compara dois registradores e define o registrador de predicado P4 como 1 
se eles forem iguais e como 0 se forem diferentes. Tambem ajusta um registrador emparelhado, por exemplo, P5, 
para a condigao inversa. Agora, as instrugoes para as partes if e then podem ser colocadas uma atras da outra, cada 
uma condicionada conforme algum registrador de predicado (mostrado entre sinais < e >). Nesse caso, pode ser 
colocado um codigo arbitrario, contanto que cada instrugao seja adequadamente predicada. 


Figura 5.50 (a) Declaracao if. (b) Codigo generico de montagem para (a), (c) Execucao predicada. 


if (R1 == R2) 

CMP R1,R2 

CMPEQ R1.R2.P4 

R3 = R4 + R5; 

BNE LI 

<P4> ADD R3,R4,R5 

else 

MOV R3,R4 

<P5> SUB R6,R4,R5 

R6 = R4 - R5 

ADD R3,R5 



BR L2 



LI: MOV R6,R4 
SUB R6,R5 
L2: 

(a) (b) (c) 


Na IA-64, essa ideia e levada ao extremo, com instrugoes de comparagao para definir os registradores de 
predicado, bem como instrugoes aritmeticas e outras cuja execugao dependa de algum registrador de predicado. 
Instrugoes predicadas podem ser alimentadas no paralelismo em sequencia, sem nenhuma protelagao nem pro- 
blemas. E por isso que sao tao uteis. 

O modo como a previsao realmente funciona na IA-64 e que toda instrugao e executada. No final do para¬ 
lelismo, quando e hora de retirar uma instrugao, e feita uma verificagao para ver se o predicado e verdadeiro. 
Se for, a instrugao e retirada normalmente e seus resultados sao escritos de volta no registrador de destino. Se 
o predicado for falso, nao e feita nenhuma escrita de volta, de modo que a instrugao nao tern nenhum efeito. A 
predicagao e discutida em detalhes em Dulong (1998). 

5.8.6 Cargos especulativas 

Outra caracterlstica da IA-64 que acelera a execugao e a presenga de instrugoes LOAD especulativas. Se uma 
LOAD for especulativa e falhar, em vez de causar uma excegao, ela apenas para, e um bit associado com o regis¬ 
trador a ser carregado e definido, marcando o registrador como invalido. Esse e exatamente o bit envenenado 
apresentado no Capltulo 4. Se acaso o registrador envenenado for utilizado mais tarde, a excegao ocorre nesse 
instante; caso contrario, ela nunca acontece. 

O modo normal de utilizar a especulagao e o compilador elevar instrugoes LOAD para posigoes acima antes 
de serem necessarias. Comegando cedo, elas podem ser concluldas antes que os resultados sejam necessarios. 
No local em que o compilador precisa usar o registrador que acabou de ser carregado, ele insere uma instrugao 
CHECK. Se o valor estiver presente, CHECK age como uma NOP, e a execugao continua imediatamente. Se o valor 
nao estiver presente, a proxima instrugao deve protelar. Se ocorreu uma excegao e o bit envenenado estiver ligado, 
a excegao pendente ocorre nesse ponto. 

Em resumo, uma maquina que efetue a arquitetura IA-64 obtem sua velocidade de varias fontes. No nucleo, 
esta uma maquina RISC de ultima geragao, com paralelismo, do tipo carregue/armazene e tres enderegos. Essa ja 
e uma grande melhoria em relagao a arquitetura IA-32 extremamente complexa. 
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Alem disso, a IA-64 tem um modelo de paralelismo expllcito que requer que o compilador decifre quais ins¬ 
trugoes podem ser executadas ao mesmo tempo sem conflitos e as agrupe em pacotes. Desse modo, a CPU pode 
escalonar cegamente um pacote sem ter de pensar muito. Passar o trabalho do tempo de execugao para o tempo 
de compilagao e certeza de vitoria. 

Em seguida, a predicagao permite que as declaragoes em ambos os ramos de uma declaragao if sejam fundi- 
das em uma unica cadeia, eliminando o desvio condicional e, por isso, a previsao do caminho que devera seguir. 
Por fim, LOADs especulativas possibilitam buscar operandos com antecedencia, sem penalidade se mais tarde se 
descobrir que, afinal, nao sao necessarios. 

Em suma, a arquitetura Itanium e um projeto impressionante, que parece atender melhor a arquitetos e usua- 
rios. Entao, voce esta usando um processador Itanium no seu computador, estamos usando um no nosso, sua mae 
esta usando um, voce conhece alguem que esteja usando um? Resposta: nao, nao, nao e (provavelmente) nao. Mais 
de uma decada apos o langamento, sua adogao pode ser descrita educadamente como mediocre. Mas a Intel ainda 
esta comprometida a produzir sistemas baseados no Itanium, embora sejam limitados a servidores de ultima geragao. 

Portanto, vamos voltar aos desafios originais que motivaram a criagao da IA-64. O Itanium foi projetado para 
resolver as muitas deficiencias na arquitetura IA-32. Visto que nao foi muito adotado, como a Intel enfrentou 
essas deficiencias? Conforme veremos no Capltulo 8, a chave para prosseguir com a linha IA-32 nao foi remodelar 
a ISA, mas sim adotar a computagao paralela, via projetos de multiprocessadores no chip. Para mais informagao 
sobre o Itanium 2 e sua microarquitetura, veja McNairy e Soltis, 2003, e Rusu et al., 2004. 


5.9 Resumo 

O nlvel de arquitetura do conjunto de instrugao e o que a maioria das pessoas chama de “linguagem de 
maquina”, embora, em maquinas CISC, ele geralmente esteja embutido em uma camada de microcodigo inferior. 
Nesse nlvel, a maquina tem uma memoria composta de bytes ou palavras, que consiste em algum numero de 
megabytes ou gigabytes e instrugoes como MOVE, ADD e BEQ. 

Grande parte dos computadores modernos tem uma memoria organizada como uma sequencia de bytes, com 
4 ou 8 bytes agrupados em palavras. Em geral, tambem ha entre 8 e 32 registradores presentes, cada um contendo 
uma palavra. Em algumas maquinas (por exemplo, o Core i7), references a palavras na memoria nao tem de estar 
alinhadas em fronteiras naturais na memoria, enquanto em outras sim (como no caso da ARM do OMAP4430). 
Porem, mesmo se as palavras nao tiverem de ser alinhadas, o desempenho e melhor se elas estiverem. 

Instrugoes costumam ter um, dois ou tres operandos que sao enderegados usando modos de enderegamento 
imediato, direto, registrador, indexado ou outros. Algumas maquinas tem uma grande quantidade de modos de 
enderegamento complexos. Em muitos casos, os compiladores sao incapazes de usa-los de um modo eficaz, e por 
isso nao sao usados. Em geral, ha instrugoes disponlveis para mover dados, para operagoes diadicas e monadicas, 
incluindo operagoes aritmeticas e booleanas, para desvios, chamadas de procedimento, lagos e, as vezes, para E/S. 
Instrugoes tlpicas movem uma palavra da memoria para um registrador (ou vice-versa), somam, subtraem, mul- 
tiplicam ou dividem dois registradores ou um registrador e uma palavra de memoria, ou comparam dois itens em 
registradores ou na memoria. Nao e incomum um computador ter bem mais de 200 instrugoes em seu repertorio. 
Maquinas CISC geralmente tem muito mais. 

O controle de fluxo no nlvel 2 e conseguido com a utilizagao de uma variedade de primitivas, incluindo desvios, 
chamadas de procedimento, chamadas de corrotinas, excegoes e interrupgoes. Desvios sao usados para encerrar uma 
sequencia de instrugao e iniciar outra nova em um local (possivelmente distante) na memoria. Procedimentos sao 
usados como um mecanismo de abstragao, para permitir que uma parte do programa seja isolada como uma uni- 
dade e chamada de varios lugares. A abstragao usando procedimentos de uma forma ou de outra e a base de toda a 
programagao moderna. Sem procedimentos, ou o equivalente, seria imposslvel escrever qualquer software moderno. 
Corrotinas permitem que dois threads de controle trabalhem simultaneamente. Excegoes sao usadas para sinalizar 
situagoes excepcionais, como transbordo aritmetico. Interrupgoes permitem que a E/S ocorra em paralelo com o 
processo principal de computagao, sendo que a CPU obtem um sinal tao logo a E/S tenha sido conclulda. 
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As Torres de Hanoi sao um problema divertido cuja interessante solugao recursiva examinamos. Solugoes 
iterativas para ele ja foram descobertas, mas elas sao muito mais complicadas e menos elegantes do que a solugao 
recursiva que estudamos. 

Por fim, a arquitetura IA-64 usa o modelo EPIC de computagao para facilitar aos programas a exploragao do 
paralelismo. Ela usa grupos de instrugoes, predicagao e instrugoes LOAD especulativas para ganhar velocidade. 
Em suma, ela pode representar um avango significativo em relagao ao Core i7, mas coloca grande parte da carga 
da paralelizagao no compilador. Ainda assim, trabalhar em tempo de compilagao e sempre melhor do que faze-lo 
em tempo de execugao. 


Problemas 

1. Uma palavra em um computador little-endian com 
palavras de 32 bits tern o valor numerico de 3. Se 
ela for transmitida para um computador big-endian 
byte por byte e ali armazenada com o byte 0 no byte 
0, o byte 1 no 1, e assim por diante, qual e seu valor 
numerico na maquina big-endian se for lido como 
um inteiro de 32 bits? 

2. Diversos computadores e sistemas operacionais no 
passado usaram espagos separados para instrugoes 
e dados, permitindo ate 2 k enderegos de programa e 
tambem 2 k enderegos de dados usando um enderego 
de k bits. Por exemplo, para k = 32, um programa 
poderia acessar 4 GB de instrugoes e tambem 4 GB 
de dados, resultando em um espago de enderegos 
total de 8 GB. Como e imposslvel que um progra¬ 
ma escreva sobre si mesmo quando esse esquema e 
usado, como o sistema operacional poderia carregar 
os programas na memoria? 

3. Projete um opcode de expansao para permitir que 
todos os seguintes sejam codificados em uma instru¬ 
gao de 32 bits: 

15 instrugoes com do is enderegos de 12 bits e um 
numero de registrador de 4 bits 

650 instrugoes com um enderego de 12 bits e um 
numero de registrador de 4 bits 

80 instrugoes sem nenhum enderego nem registrador 

4. Certa maquina tern instrugoes de 16 bits e endere¬ 
gos de 6 bits. Algumas instrugoes tern um enderego 
e outras tern dois. Se houver n instrugoes de dois 
enderegos, qual e o numero maximo de instrugoes 
de um enderego? 

5. E possivel projetar um opcode de expansao que 
permita que os seguintes sejam codificados em uma 
instrugao de 12 bits? Um registrador tern 3 bits. 

4 instrugoes com tres registradores 
255 instrugoes com um registrador 

16 instrugoes com zero registradores 


6. Dados os valores de memoria a seguir, e uma maqui¬ 
na de um enderego com um acumulador, quais valo¬ 
res as seguintes instrugoes carregam no acumulador? 

palavra 20 contem 40 
palavra 30 contem 50 
palavra 40 contem 60 
palavra 50 contem 70 

a. LOAD IMMEDIATE 20 

b. LOAD DIRECT 20 

c. LOAD INDIRECT 20 

d. LOAD IMMEDIATE 30 

e. LOAD DIRECT 30 

f. LOAD INDIRECT 30 

7. Compare maquinas de 0, 1, 2 e 3 enderegos escreven- 
do programas para calcular 

X = (A + B x C) / (D - E x F) 
para cada uma das quatro maquinas. As instrugoes 
disponiveis para uso sao as seguintes: 



M e um enderego de memoria de 16 bits, e X, Y e Z 
sao enderegos de 16 bits ou registradores de 4 bits. A 
maquina de 0 enderego usa uma pilha, a de 1 ende¬ 
rego usa um acumulador e as outras duas tern 16 
registradores e instrugoes que operam sobre todas as 
combinagoes de localizagoes de memoria e registra¬ 
dores. SUB X,Y subtrai Y de X e SUB X,Y,Z subtrai 
Z de Y e coloca o resultado em X. Com opcodes de 8 
bits e comprimentos de instrugao multiplos de 4 bits, 
quantos bits a maquina precisa para calcular X? 
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8. Planeje um mecanismo de enderegamento que permi- 
ta que um conjunto arbitrario de 64 enderegos, nao 
necessariamente contiguos, em um espago de endere- 
go grande, seja especificavel em um campo de 6 bits. 

9. Cite uma desvantagem de codigo automodificador 
que nao foi mencionada no texto. 

10. Converta as seguintes formulas de notagao infixa 
para a notagao polonesa invertida. 

a. A + B + C + D- E 

b. (A - B) x (C + D) + E 

c. (A x B) + (C x D) - E 

d. (A - B) x (((C - D x E) / F) / G) x H 

11. Quais dos seguintes pares de formulas em notagao 
polonesa invertida sao matematicamente equivalentes? 

a. AB + C + eABC + + 

b. AB-C-eABC — 

c. ABxC + eABC + x 

12. Converta as seguintes formulas em notagao polonesa 
invertida para notagao infixa. 

a. AB-C + Dx 

b. AB/CD/ + 

c. ABCDE + xx/ 

d. ABCDExF/ + G- H/ x + 

13. Escreva tres formulas em notagao polonesa invertida 
que nao podem ser convertidas para notagao infixa. 

14. Converta as seguintes formulas booleanas em nota¬ 
gao infixa para notagao polonesa invertida. 

a. (A AND B) OR C 

b. (A OR B) AND (A OR C) 

c. (A AND B) OR (C AND D) 

15. Converta a seguinte formula em notagao infixa para 
notagao polonesa invertida e gere um codigo IJVM 
para avalia-la. 

(5 x 2 + 7) - (4 / 2 + 1) 

16. Quantos registradores tern a maquina cujos formatos 
de instrugoes sao dados na Figura 5.24? 

17. Na Figura 5.24, o bit 23 e usado para distinguir entre 
a utilizagao do formato 1 e do formato 2. Nenhum bit 
e fornecido para distinguir a utilizagao do formato 3. 
Como o hardware sabe quando usa-lo? 

18. Em programagao, e comum que um programa preci¬ 
se determinar onde uma variavel X esta em relagao 
ao intervalo A a B. Se houvesse uma instrugao de 
tres enderegos disponivel com os operandos A, B e 
X, quantos bits de codigo de condigao teriam de ser 
ajustados por essa instrugao? 

19. Descreva uma vantagem e uma desvantagem do 
enderegamento relativo ao contador de programa. 


20. O Core i7 tern um bit de codigo de condigao que 
registra o vai-um do bit 3 apos uma operagao aritme- 
tica. Para que serve isso? 

21. Um de seus amigos aparece no seu quarto as 3 horas 
da manha, sem folego, para lhe contar sua nova ideia 
brilhante: uma instrugao com dois opcodes. Voce 
deve manda-lo ao Cartorio de Registro de Patentes 
ou de volta a prancheta? Explique. 

22. Testes na forma 

if (k == 0) ... 
if (a > b) ... 
if (k < 5) ... 

sao comuns na programagao. Invente uma instrugao 
para realiza-los de modo eficiente. Que campos estao 
presentes na sua instrugao? 

23. Para o numero binario de 16 bits 1001 0101 1100 
0011, mostre o efeito de: 

a. Um deslocamento de 4 bits para a direita com 
preenchimento zero. 

b. Um deslocamento de 4 bits para a direita com 
extensao de sinal. 

c. Um deslocamento de 4 bits para a esquerda. 

d. Uma rotagao de 4 bits para a esquerda. 

e. Uma rotagao de 4 bits para a direita. 

24. Como voce pode limpar uma palavra de memoria em 
uma maquina que nao tern nenhuma instrugao CLR? 

25. Calcule a expressao booleana (A AND B ) OR C para 

A = 1101 0000 1010 0011 
B = 1111 1111 0000 1111 
C = 0000 0000 0010 0000 

26. Invente um modo de trocar duas variaveis A e B sem 
usar uma terceira variavel ou registrador. Dica: pense 
na instrugao EXCLUSIVE OR. 

27. Em certo computador, e possivel mover um numero 
de um registrador para outro, deslocar cada um deles 
para a esquerda por diferentes quantidades e somar 
os resultados em menos tempo do que leva uma 
multiplicagao. Em qual condigao essa sequencia de 
instrugao e util para calcular “constante x variavel”? 

28. Maquinas diferentes tern densidades de instrugao 
diferentes (numero de bytes requerido para realizar 
algum processo de computagao). Dados os seguintes 
fragmentos de codigo Java, traduza cada um em lin- 
guagem de montagem Core i7 e IJVM. Em seguida, 
calcule quantos bytes cada expressao requer para 
cada maquina. Considere que i e j sao variaveis locais 
na memoria; porem, quanto ao mais, faga as suposi- 
goes mais otimistas em todos os casos. 

a. i = 3; 

b. i =j; 

c. i = j - 1; 
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29. As instrugoes de lago discutidas no texto eram para 
manipular lagos for. Invente uma instrugao que 
poderia ser util para manipular lagos while. 

30. Suponha que os monges de Hanoi possam mover 1 
disco por minuto (eles nao tern pressa de terminar o 
trabalho porque as oportunidades de emprego para 
pessoas que tern essa habilidade peculiar sao limi- 
tadas em Hanoi). Quanto tempo levara para resol- 
verem todo o problema dos 64 discos? Expresse seu 
resultado em anos. 

31. Por que os dispositivos de E/S colocam o vetor de 
interrupgao no barramento? Seria possivel armaze- 
nar aquela informagao em uma tabela de memoria? 

32. Um computador usa DMA para ler de seu disco. O 
disco tern 64 setores de 512 bytes por trilha. O tempo 
de rotagao do disco e 16 ms. O barramento tern 16 bits 
de largura e transferences do barramento levam 500 ns 
cada. A instrugao media de CPU requer dois ciclos de 
barramento. De quanto e o atraso causado pelo DMA? 

33. A transference de DMA descrita na Figura 5.32 exige 
2 transferences de barramento para mover dados 
entre um dispositivo de E/S e a memoria. Descreva 
como o desempenho do DMA pode ser melhorado 
usando a arquitetura de barramento da Figura 3.35. 

34. Por que rotinas de servigo de interrupgao tern prio- 
ridades associadas a elas enquanto procedimentos 
normais nao tern prioridades? 

35. A arquitetura IA-64 contem um grande numero de 
registradores (64), o que nao e comum. A escolha 
desse numero tao grande esta relacionada com a 
utilizagao de predicagao? Se a resposta for positiva, 
como estao relacionados? Se a resposta for negativa, 
por que ha tantos registradores? 

36. No texto, e discutido o conceito de instrugoes LOAD 
especulativas. Contudo, nao ha nenhuma mengao de 


instrugoes STORE especulativas. Por que nao? Elas sao, 
basicamente, o mesmo que instrugoes LOAD especula¬ 
tivas ou ha outra razao por que nao foram discutidas? 

37. Quando duas redes locais devem ser conectadas, um 
computador denominado ponte e inserido entre elas 
e conectado a ambas. Cada pacote transmitido em 
qualquer uma das redes causa uma interrupgao na 
ponte para permitir que ela verifique se o pacote tern 
de ser repassado. Suponha que tratar a interrupgao 
e inspecionar o pacote leve 250 ps por pacote, mas 
a transmissao, se for necessaria, sera executada por 
hardware de DMA, sem sobrecarregar a CPU. Se 
todos os pacotes tiverem 1 KB, qual e a taxa maxima 
de dados que pode ser tolerada em cada rede sem 
causar perda de pacotes pela ponte? 

38. Na Figura 5.40, o ponteiro de quadro aponta para a 
primeira variavel local. Que informagao o programa 
necessita para retornar de um procedimento? 

39. Escreva uma sub-rotina em linguagem de montagem 
para converter um inteiro binario com sinal para ASCII. 

40. Escreva uma sub-rotina em linguagem de montagem 
para converter uma formula infixa para notagao 
polonesa invertida. 

41. O Torres de Hanoi nao e o unico pequeno procedi¬ 
mento recursivo muito apreciado por cientistas da 
computagao. Outro favorito imbatlvel e n!, em que 
n! = n(n - 1)! sujeito a condigao limitadora 0! = 
1. Escreva um procedimento em sua linguagem de 
montagem favorita para calcular n!. 

42. Se voce nao estiver convencido de que a recursao e 
as vezes indispensavel, tente programar o Torres de 
Hanoi sem usar recursao e sem simular a solugao 
recursiva mantendo uma pilha em um vetor. Porem, 
advertimos de antemao que voce provavelmente nao 
conseguira achar a solugao. 
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O tema deste livro e que um computador moderno e construldo como uma serie de nlveis, e cada um 
acrescenta funcionalidade ao nlvel que esta abaixo dele. Ate agora, vimos o nlvel logico digital, o de 
microarquitetura e o de arquitetura do conjunto de instrugao. Agora, chegou a hora de passar para outro 
nlvel e entrar no ambito do sistema operacional. 

Um sistema operacional e um programa que, do ponto de vista do programador, acrescenta diversas novas 
instrugoes e caracterlsticas, acima e alem do que o nlvel ISA fornece. Em geral, o sistema operacional e execu- 
tado, em grande parte, em software, mas nao ha nenhuma razao teorica por que ele nao possa ser colocado em 
hardware, exatamente como acontece com os microprogramas (quando estao presentes). Para abreviar, denomi- 
naremos o nlvel que ele implementa como o nlvel OSM (Operating System Machine), ou seja, nlvel de maquina 
de sistema operacional, mostrado na Figura 6.1. 

Embora o nlvel OSM e o nlvel ISA sejam ambos abstratos (no sentido de que nao sao o verdadeiro nlvel de 
hardware), ha uma importante diferenga entre eles. O conjunto de instrugoes do nlvel OSM e o conjunto com- 
pleto de instrugoes disponlveis para programadores de aplicagao. Contem quase todas as instrugoes de nlvel ISA, 
bem como o conjunto de novas instrugoes que o sistema operacional adiciona. Estas sao denominadas chamadas de 
sistema. Uma chamada de sistema chama um servigo predefinido do sistema operacional, na verdade, uma de suas 
instrugoes. Uma chamada de sistema tlpica e ler dados de um arquivo. As chamadas de sistema serao impressas 
em letras minusculas em fonte Helvetica. 

O nlvel OSM e sempre interpretado. Quando um programa usuario executa uma instrugao OSM, como ler 
alguns dados de um arquivo, o sistema operacional executa essa instrugao passo a passo, do mesmo modo que 
um microprograma executaria uma instrugao ADD passo a passo. Contudo, quando um programa executa uma 
instrugao de nlvel ISA, ela e efetuada diretamente pelo nlvel de microarquitetura subjacente, sem qualquer assis- 
tencia do sistema operacional. 
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Figura 6.1 Posicionamento do nivel de maquina de sistema operacional. 


Nivel 1 



Neste livro, poderemos oferecer apenas a mais breve das introdugoes ao assunto de sistemas operacionais. 
Focalizaremos tres topicos importantes: o primeiro e a memoria virtual, uma tecnica fornecida por muitos 
sistemas operacionais modernos para fazer com que a maquina parega ter mais memoria do que na realidade 
tern. O segundo e E/S de arquivo, um conceito de nivel mais alto do que as instrugoes de E/S que estudamos 
no capitulo anterior. O terceiro topico e o processamento paralelo - como varios processos podem executar, se 
comunicar e sincronizar. O conceito de um processo e importante e o descreveremos em detalhes mais adiante 
neste capitulo. Por enquanto, podemos entender um processo como um programa em execugao e todas as suas 
informagoes de estado (memoria, registradores, contador de programa, estado de E/S e assim por diante). Apos 
discutir esses princlpios em termos gerais, mostraremos como eles se aplicam aos sistemas operacionais de duas 
de nossas maquinas de exemplo, o Core i7 (rodando o Windows 7) e a CPU ARM do OMAP4430 (rodando 
o Linux). Como o microcontrolador ATmegal68 costuma ser usado em sistemas embutidos, ele nao tern um 
sistema operacional. 


6.1 Memoria virtual 

No inlcio da historia dos computadores, as memorias eram pequenas e caras. O IBM 650, o llder dos com- 
putadores cientlficos de sua epoca (final da decada de 1950), tinha somente 2.000 palavras de memoria. Um dos 
primeiros compiladores ALGOL 60 foi escrito para um computador que tinha apenas 1.024 palavras de memo¬ 
ria. Um antigo sistema de tempo compartilhado funcionava muito bem em um PDP-1 com tamanho total de 
memoria de apenas 4.096 palavras de 18 bits para o sistema operacional e programas do usuario combinados. 
Naquela epoca, o programador gastava muito tempo tentando comprimir programas na minuscula memoria. 
Muitas vezes, era necessario usar um algoritmo cuja execugao era muito mais lenta do que a de outro algoritmo 
melhor, so porque o algoritmo melhor era muito grande - isto e, um programa que o utilizasse nao poderia ser 
encaixado na memoria do computador. 

A solugao tradicional para esse problema era usar uma memoria secundaria, como um disco. O programador 
dividia o programa em algumas partes, denominadas sobreposigoes (overlays), cada uma das quais podia caber 
na memoria. Para executar o programa, a primeira sobreposigao era trazida para a maquina e executava durante 
algum tempo. Quando terminava, lia a proxima sobreposigao e a chamava, e assim por diante. O programador era 
responsavel por fragmentar o programa em sobreposigoes, decidir em que lugar da memoria secundaria cada uma 
seria mantida, resolver o transporte delas entre memoria principal e memoria secundaria e, em geral, gerenciar 
todo o processo de sobreposigao sem nenhum auxllio do computador. 

Embora tenha sido muito utilizada durante anos, essa tecnica envolvia muito trabalho para o gerenciamento 
de sobreposigao. Em 1961, um grupo de pesquisadores em Manchester, Inglaterra, propos um metodo para exe¬ 
cutar o processo de sobreposigao automaticamente, sem que o programador soubesse o que estava acontecendo 
(Fotheringham, 1961). Esse metodo, agora denominado memoria virtual, tinha a obvia vantagem de livrar o 
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programador de grande parte de uma irritante contabilidade. A memoria virtual foi usada pela primeira vez em 
alguns computadores durante a decada de 1960, a maioria deles associada com projetos de pesquisa na area de 
sistemas de computagao. No inlcio da decada de 1970, a memoria virtual ja estava disponlvel na maioria dos 
computadores. Agora, ate computadores de um so chip, incluindo o Core i7 e a CPU ARM do OMAP4430, tern 
sistemas de memoria virtual altamente sofisticados. Vamos examina-los mais adiante neste capltulo. 

6.1.1 Paginacao 

A ideia proposta pelo grupo de Manchester foi separar os conceitos de espago de enderego e localizagoes 
de memoria. Considere, como exemplo, um computador tlpico naquela epoca, que poderia ter tido um campo de 
enderego de 16 bits em suas instrugoes e 4.096 palavras de memoria. Um programa nesse computador podia acessar 
65.536 palavras de memoria. A razao e que existem 65.536 (2 16 ) enderegos de 16 bits, cada um correspondente a 
uma palavra de memoria diferente. Note que o numero de palavras enderegaveis depende somente do numero de 
bits em um enderego, e nao esta relacionado, de modo algum, com o numero de palavras de memoria realmente 
disponlvel. O espago de enderego para esse computador consiste nos numeros 0, 1, 2, ..., 65.535, porque esse e o 
conjunto de posslveis enderegos. Contudo, o computador pode perfeitamente ter menos do que 65.535 palavras de 
memoria. 

Antes da invengao da memoria virtual, as pessoas faziam uma distingao entre os enderegos abaixo de 4.096 e 
os iguais ou acima de 4.096. Embora raramente expresso em tantas palavras, essas duas partes eram consideradas 
o espago de enderego util e o de enderego inutil, nessa ordem (aqueles acima de 4.095 eram inuteis porque nao 
correspondiam a enderegos de memoria em si). As pessoas nao distinguiam espago de enderego e enderegos de 
memoria porque o hardware impunha uma correspondence um-para-um entre eles. 

A ideia de separar o espago de enderego e os enderegos de memoria e a seguinte. Em qualquer instante, 
4.096 palavras de memoria podiam ser acessadas diretamente, mas elas nao precisam corresponder a enderegos de 
memoria 0 a 4.095. Por exemplo, poderlamos “dizer” ao computador que, dali em diante, sempre que o enderego 
4.096 fosse referenciado, a palavra de memoria no enderego 0 deveria ser usada; sempre que o enderego 4.097 
fosse referenciado, a palavra de memoria no enderego 1 deveria ser usada; sempre que o enderego 8.191 fosse 
referenciado, a palavra de memoria no enderego 4.095 deveria ser usada, e assim por diante. Ou seja, definimos 
um mapeamento do espago de enderego para enderegos de memoria propriamente ditos, conforme mostra a 
Figura 6.2. 


Figura 6.2 


Mapeamento no qual enderecos virtuais 4.096 a 8.191 sao mapeados para enderecos da memoria principal 0 a 4.095. 


Espago de enderego 



Mapeamento Memoria 

principal de 4 K 



4095 

0 


Em termos desse quadro de mapear enderegos do espago de enderego para locais da memoria propriamente 
ditos, uma maquina de 4 KB sem memoria virtual apenas tern um mapeamento fixo entre os enderegos 0 a 4.095 
e as 4.096 palavras de memoria. Uma pergunta interessante e: “O que acontece se um programa desviar para um 
enderego entre 8.192 e 12.287?”. Se a maquina nao tiver memoria virtual, o programa causaria uma excegao que 
imprimiria uma mensagem rude, por exemplo: “Memoria referenciada nao existente”, e encerraria o programa. 
Se a maquina tiver memoria virtual, ocorreriam as seguintes etapas: 
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1. O conteudo da memoria principal seria salvo em disco. 

2. Palavras 8.192 a 12.287 estariam localizadas no disco. 

3. Palavras 8.192 a 12.287 seriam carregadas para a memoria principal. 

4. O mapa de enderegos seria alterado para mapear enderegos 8.192 a 12.287 para localizagoes de memoria 
0 a 4.095. 

5. A execugao continuaria como se nada de incomum tivesse acontecido. 


Essa tecnica de sobreposigao automatica e denominada paginagao, e os trechos de programa lidos do disco 
sao denominados paginas. 

Tambem e possivel um modo mais sofisticado de mapear enderegos do espago de enderego para locais de 
memoria propriamente ditos. Por questao de enfase, denominaremos os enderegos que o programa pode refe- 
renciar como espago de enderego virtual, e os enderegos de memoria ligados (flsicos) propriamente ditos como 
espago de enderego flsico. Um mapa de memoria ou tabela de paginas especifica o enderego flsico correspon- 
dente para cada enderego virtual. Vamos supor que haja espago suficiente em disco para armazenar todo o espago 
de enderego virtual (ou, pelo menos, a parte dele que esta sendo usada). 

Programas sao escritos como se houvesse memoria principal suficiente para todo o espago de enderego vir¬ 
tual, ainda que nao seja esse o caso. Programas podem ler de qualquer palavra do espago de enderego virtual, ou 
armazenar em qualquer palavra do espago de enderego virtual, ou desviar para qualquer instrugao localizada em 
qualquer lugar dentro do espago de enderego virtual, sem se preocupar com o fato de que, na realidade, nao ha 
suficiente memoria flsica. De fato, o programador pode escrever programas sem nem mesmo estar ciente de que 
a memoria virtual existe. O computador apenas parece ter uma grande memoria. 

Esse ponto e crucial e sera comparado mais adiante com a segmentagao, na qual o programador deve estar 
ciente da existencia de segmentos. Mais uma vez, por questao de enfase, a paginagao da ao programador a ilusao 
de uma memoria principal linear grande, contlnua, do mesmo tamanho do espago de enderego virtual. Na realidade, 
a memoria principal disponlvel pode ser menor (ou maior) do que o espago de enderego virtual. A simulagao 
dessa grande memoria principal por paginagao nao pode ser detectada pelo programa (exceto pela execugao de 
testes de temporizagao). Sempre que um enderego for referenciado, a instrugao ou a palavra de dados adequada 
parece estar presente. Como o programador pode programar como se a paginagao nao existisse, diz-se que o 
mecanismo de paginagao e transparente. 

Afinal, a ideia de que um programador poder usar algumas caracterlsticas nao existentes sem se preocupar 
em como elas funcionam nao e novidade para nos. O conjunto de instrugoes de nlvel ISA muitas vezes inclui uma 
instrugao MUL, ainda que a microarquitetura subjacente nao tenha um dispositivo de multiplicagao no hardware. 
A ilusao de que a maquina pode multiplicar costuma ser sustentada por microcodigo. De modo semelhante, a 
maquina virtual fornecida pelo sistema operacional pode dar a impressao de que todos os enderegos virtuais sao 
sustentados por memoria real, ainda que isso nao seja verdade. Somente escritores (e estudantes) de sistema 
operacional tern de saber como a ilusao e suportada. 

6.1.2 Implementacao de paginacao 

Um requisito essencial para uma memoria virtual e um disco para guardar todo o programa e todos os dados. 
O disco poderia ser um disco rotativo ou um disco em estado solido. No restante deste livro, vamos nos referir 
a “disco” ou a “disco rlgido” para simplificar, mas entenda que isso inclui tambem os discos em estado solido. 
Em termos conceituais, e mais simples definir a copia do programa que esta no disco como o programa original 
e as porgoes trazidas para a memoria principal de vez em quando como copias, em vez do contrario. Claro, e 
importante manter o original atualizado. Quando sao feitas alteragoes na copia que esta na memoria principal, 
elas tambem tern de ser refletidas no original (em seu devido tempo). 

O espago de enderego virtual e desmembrado em varias paginas do mesmo tamanho. No momento, sao 
comuns tamanhos na faixa de 512 a 64 KB por pagina, embora tamanhos de ate 4 MB sejam usados as vezes. 
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O tamanho da pagina e sempre uma potencia de 2, por exemplo, 2 k , de modo que todos os enderegos podem 
ser representados em k bits. O espago de enderego flsico tambem e desmembrado em partes de modo seme- 
lhante e cada porgao e do mesmo tamanho de uma pagina, de modo que cada parte da memoria principal e 
capaz de conter exatamente uma pagina. Essas partes para onde vao as paginas sao denominadas quadros de 
pagina. Na Figura 6.2, a memoria principal contem somente um quadro de pagina. Na pratica, os projetos 
costumam conter milhares delas. 

A Figura 6.3(a) ilustra um modo posslvel de dividir os primeiros 64 KB de um espago de enderego virtual - em 
paginas de 4 KB. (Note que, neste caso, estamos falando de 64 KB e 4 K de enderegos. Um enderego poderia ser 
um byte, mas tambem poderia perfeitamente ser uma palavra em um computador no qual palavras consecutivas 
tivessem enderegos consecutivos.) A memoria virtual da Figura 6.3 seria implementada por meio de uma tabela de 
paginas com tantas entradas quantas fossem as paginas no espago de enderego virtual. Aqui, para simplificar, mos- 
tramos somente as primeiras 16 entradas. Quando o programa tenta referenciar uma palavra nos primeiros 64 KB de 
seu espago de enderego virtual, seja para buscar instrugoes, seja para buscar ou armazenar dados, ele primeiro gera 
um enderego virtual entre 0 e 65.532 (admitindo que enderegos de palavra devem ser divislveis por 4). Indexagao, 
enderegamento indireto e todas as tecnicas comuns podem ser usadas para gerar esse enderego. 


Figura 6.3 


(a) Os primeiros 64 KB do espaco de endereco virtual divididos em 16 paginas, cada pagina com 4 K. (b) Memoria principal 
de 32 KB dividida em oito quadros de pagina de 4 KB cada. 


Quadro 

de pagina Enderegos virtuais 


- ? 

^ £ 

15 

61440-65535 

14 

57344-61439 

13 

53248 - 57343 

12 

49152-53247 

11 

45056-49151 

10 

40960 - 45055 

9 

36864 - 40959 

8 

32768 - 36863 

7 

28672 - 32767 

6 

24576-28671 

5 

20480 - 24575 

4 

16384-20479 

3 

12288-16383 

2 

8192- 12287 

1 

4096-8191 

0 

0 - 4095 


32 KB da parte inferior 
Quadro merT| bria principal 


de pagina 

Enderegos ffsicos 

7 

28672 - 32767 

6 

24576-28671 

5 

20480 - 24575 

4 

16384-20479 

3 

12288- 16383 

2 

8192- 12287 

1 

4096-8191 

0 

0 - 4095 


(a) 


(b) 


A Figura 6.3(b) mostra uma memoria flsica que consiste em oito quadros de pagina de 4 KB. Essa memoria 
poderia ser limitada a 32 KB porque (1) isso e tudo que a maquina tinha (um processador embutido em uma 
lavadora ou em um forno de micro-ondas poderia nao precisar de mais), ou (2) o resto da memoria foi alocado 
a outros programas. 
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Agora, considere como um enderego virtual de 32 bits pode ser mapeado para um enderego flsico de memo- 
ria principal. Afinal, a unica coisa que a memoria entende sao enderegos de memoria principal, e nao enderegos 
virtuais, portanto, sao aqueles que lhe devem ser dados. Todo computador com memoria virtual tern um dispo- 
sitivo para fazer o mapeamento virtual para flsico. Esse dispositivo e denominado MMU (Memory Management 
Unit - unidade de gerenciamento de memoria). Ele pode estar no chip da CPU, ou em um chip separado que 
funciona em estreita relagao com o da CPU. Uma vez que nosso exemplo de MMU mapeia de um enderego 
virtual de 32 bits para um enderego flsico de 15 bits, ele precisa de um registrador de entrada de 32 bits e um 
registrador de salda de 15 bits. 

Para ver como a MMU funciona, considere o exemplo da Figura 6.4. Quando um enderego virtual de 32 bits 
e apresentado a MMU, ela o separa em um numero de pagina virtual de 20 bits e em um deslocamento de 12 bits 
dentro da pagina (porque as paginas de nosso exemplo sao de 4 K). O numero de pagina virtual e usado como 
um Indice para a tabela de paginas a fim de achar a entrada para a pagina referenciada. Na Figura 6.4, o numero 
de pagina virtual e 3, portanto, e selecionada a entrada 3 da tabela de paginas, como ilustra a figura. 


Figura 6.4 Formacao de um endereco de memoria principal a partir de um endereco virtual. 
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A primeira coisa que a MMU faz com a entrada de tabela de pagina e verificar se a pagina referenciada esta 
na memoria principal naquele momento. Afinal, com 2 20 paginas virtuais e somente oito quadros de pagina, nem 
todas as paginas virtuais podem estar na memoria ao mesmo tempo. A MMU faz essa verificagao examinando o 
bit presente/ausente na entrada da tabela de paginas. Em nosso exemplo, o bit e 1, o que significa que a pagina 
esta na memoria no momento em questao. 

A proxima etapa e pegar o valor do quadro de pagina da entrada selecionada (6 nesse caso) e copia-lo para 
os 3 bits superiores do registrador de salda de 15 bits. Sao necessarios tres bits porque ha oito quadros de pagina 
na memoria flsica. Em paralelo a essa operagao, os 12 bits menos significativos do enderego virtual (o campo 
de deslocamento da pagina) sao copiados para os 12 bits de ordem baixa do registrador de salda, como ilustra a 
figura. Esse enderego de 15 bits agora e enviado para a cache ou para a memoria, para consulta. 

A Figura 6.5 mostra um posslvel mapeamento entre paginas virtuais e quadros de paginas flsicas. A pagina 
virtual 0 esta no quadro de pagina 1. A pagina virtual 1 esta no quadro de pagina 0. A pagina virtual 2 nao esta 
na memoria principal. A pagina virtual 3 esta no quadro de pagina 2. A pagina virtual 4 nao esta na memoria 
principal. A pagina virtual 5 esta no quadro de pagina 6, e assim por diante. 


Figura 6.5 


Posstvel mapeamento das 16 primeiras paginas virtuais para uma memoria principal com oito quadros de pagina. 


Tabela de pagina 


Pagina Quadro 
virtual de pagina 



1 = Presente na memoria principal 
0 = Ausente da memoria principal 
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6.1.3 Paginacao por demanda e o modelo de conjunto de trabalho 

Na discussao anterior, admitimos que a pagina virtual referenciada estava na memoria principal. Contudo, 
essa suposigao nem sempre sera verdadeira, porque nao ha espago suficiente nessa memoria para todas as paginas 
virtuais. Quando e feita uma referencia a um enderego em uma pagina que nao esta presente na memoria princi¬ 
pal, isso e denominado falta de pagina. Apos ocorrer uma falta de pagina, e necessario que o sistema operacional 
leia a pagina requerida do disco, registre seu novo local na memoria flsica na tabela de pagina e depois repita a 
instrugao que causou a falha. 

E posslvel iniciar um programa que executa em uma maquina com memoria virtual mesmo quando nao 
houver nada do programa na memoria principal. Basta ajustar a tabela de paginas para indicar que toda e qualquer 
pagina virtual esta na memoria secundaria, e nao na principal. Quando a CPU tenta buscar a primeira instrugao, 
obtem imediatamente uma falta de pagina, e isso faz com que a pagina que contem a primeira instrugao seja car- 
regada na memoria e registrada na tabela de pagina. Entao, a primeira instrugao pode comegar. Se ela tiver dois 
enderegos, e estes estiverem em paginas diferentes, e ambas forem diferentes da pagina da instrugao, ocorrerao 
mais duas faltas de pagina e mais duas paginas serao trazidas antes que a instrugao possa, por fim, ser executada. 
A proxima instrugao pode causar mais algumas faltas de pagina e assim por diante. 

Esse metodo de operar uma memoria virtual e denominado paginagao por demanda, por analogia com o 
conhecido algoritmo de alimentagao de bebes por demanda: quando o bebe chora, voce o alimenta (ao contrario 
de alimenta-lo segundo um horario definido). Na paginagao por demanda, as paginas sao trazidas para a memoria 
somente quando ocorre uma requisigao de uma pagina, e nao antecipadamente. 

A questao de usar ou nao paginagao por demanda so e relevante quando um programa for iniciado pela 
primeira vez. Assim que ele estiver executando por algum tempo, as paginas necessarias ja terao sido coletadas 
na memoria principal. Se o computador compartilhar tempo e os processos forem permutados apos 100 ms de 
execugao ou por al, cada programa sera reinicializado muitas vezes durante o curso de sua execugao. Como o 
mapa de memoria e exclusivo de cada programa e e substituldo quando os programas sao trocados, por exemplo, 
em um sistema de tempo compartilhado, a questao com frequencia se torna crltica. 

A abordagem alternativa e baseada na observagao de que grande parte dos programas nao referencia seu espa¬ 
go de enderegos de modo uniforme, mas as references tendem a se aglomerar em um numero pequeno de pagi¬ 
nas. Esse conceito e denominado princlpio da localidade. Uma referencia a memoria pode buscar uma instrugao, 
buscar dados ou armazena-los. A qualquer instante t ha um conjunto que consiste em todas as paginas usadas 
pelas k references mais recentes a memoria. Denning (1968) denominou isso conjunto de trabalho (working set). 

Como o conjunto de trabalho em geral varia devagar com o tempo, e posslvel fazer uma previsao razoavel 
de quais paginas serao necessarias quando o programa for reiniciado, com base em seu conjunto de trabalho na 
ocasiao em que foi interrompido da ultima vez. Entao, essas paginas poderiam ser carregadas antecipadamente 
antes de iniciar o programa (supondo que elas caibam). 

6.1.4 Politico de substituicao de pagina 

O ideal e que o conjunto de paginas que o programa usa muito e ativamente, denominado conjunto de tra¬ 
balho, possa ser mantido na memoria para reduzir faltas de pagina. Contudo, e raro que os programadores saibam 
quais paginas estao no conjunto de trabalho, portanto, o sistema operacional tern de descobrir esse conjunto dina- 
micamente. Quando um programa referencia uma pagina que nao esta na memoria principal, a pagina sobcitada 
deve ser buscada no disco. Todavia, para lhe abrir espago, em geral alguma outra pagina tera de ser devolvida ao 
disco. Portanto, precisamos de um algoritmo que decida qual pagina deve ser removida. 

Escolher aleatoriamente uma pagina para remover talvez nao seja uma boa ideia. Se, por acaso, a pagina 
que contem a instrugao faltante for a escolhida, ocorrera outra falta de pagina tao logo haja uma tentativa de 
buscar a proxima instrugao. Grande parte dos sistemas operacionais tenta prever qual das paginas na memo¬ 
ria e a menos util, no sentido de que sua ausencia causaria menor efeito adverso posslvel sobre o programa 
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em execugao. Um modo de fazer isso e prever quando ocorrera a proxima referencia a cada pagina e remover 
a pagina cuja proxima referencia prevista estiver no futuro mais longinquo. Em outras palavras, em vez de 
extrair uma pagina que sera necessaria em breve, tenta-se selecionar uma que nao sera necessaria por um 
longo tempo. 

Um algoritmo popular extrai a pagina menos recentemente usada porque e alta a probabilidade a priori de 
ela nao estar no conjunto de trabalho atual. Ele e denominado algoritmo LRU (Least Recently Used - usada 
menos recentemente) e, embora costume funcionar bem, ha situagoes patologicas, como a descrita a seguir, na 
qual o LRU falha miseravelmente. 

Imagine um programa que esteja executando um grande lago que se estende por nove paginas virtuais em 
uma maquina que tern espago para apenas oito paginas na memoria flsica. Apos o programa chegar a pagina 7, a 
memoria principal estara conforme mostra Figura 6.6(a). Em dado instante, e feita uma tentativa para buscar uma 
instrugao na pagina virtual 8, o que causa uma falta de pagina. E preciso decidir qual pagina deve ser extralda. O 
algoritmo LRU escolhera a pagina virtual 0, porque foi usada menos recentemente. A pagina virtual 0 e removida 
e a 8 e trazida para substitul-la, resultando na situagao mostrada na Figura 6.6(b). 


Figura 6.6 


Falha do algoritmo LRU. 
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Pagina virtual 8 


Pagina virtual 8 


(a) (b) (c) 


Apos executar as instrugoes na pagina virtual 8, o programa desvia de volta para o inlcio do lago, para a 
pagina virtual 0. Essa etapa causa outra falta de pagina. A pagina virtual 0, que acabou de ser extralda, tern de ser 
trazida de volta. O algoritmo LRU escolhe a pagina 1 para ser retirada, o que produz a situagao na Figura 6.6(c). 
O programa continua na pagina 0 por alguns instantes e entao tenta buscar uma instrugao na pagina virtual 1, 
causando uma falta de pagina. A pagina 1 tern de ser trazida de volta mais uma vez e a pagina 2 sera extralda. 

A essa altura ja deve estar evidente que, neste caso, o algoritmo LRU esta fazendo a pior escolha toda vez 
(outros algoritmos tambem falham em condigoes semelhantes). Contudo, se o tamanho da memoria principal 
disponlvel for maior do que o do conjunto de trabalho, o LRU tende a minimizar o numero de faltas de pagina. 

Outro algoritmo de substituigao de pagina e o FIFO (First-In First-Out - primeiro a entrar, primeiro a sair). 
O FIFO remove a pagina menos recentemente carregada, independente de quando essa pagina foi referenciada 
pela ultima vez. Ha um contador associado a cada quadro de pagina e, de inlcio, todos os contadores estao defi- 
nidos como 0. Apos cada falta de pagina ter sido tratada, o contador de cada pagina que se encontra na memoria 
no momento e aumentado em um, e o contador da pagina que acabou de ser trazida e definido como 0. Quando 
se torna necessario escolher uma pagina para remover, aquela cujo contador estiver mais alto e a escolhida. Uma 
vez que seu contador e o mais alto, ela testemunhou o maior numero de faltas de pagina. Isso significa que ela 
foi carregada na memoria antes de qualquer uma das outras paginas e, portanto (esperamos), tern a maior chance 
a priori de nao ser mais necessaria. 
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Se o conjunto de trabalho for maior do que o numero de quadros de pagina disponlveis, nenhum algoritmo 
dara bons resultados, a menos que seja um oraculo, e as faltas de pagina serao frequentes. Quando um pro- 
grama gera faltas de pagina com frequencia e continuamente, diz-se que ele esta fazendo paginagao excessiva 
( thrashing ). Nem e preciso dizer que isso e uma caracterlstica indesejavel em seu sistema. Se um programa usar 
uma grande quantidade de espago de enderego virtual, mas tiver um conjunto de trabalho pequeno, que mu da 
lentamente e cabe na memoria principal disponlvel, ele dara poucos problemas. Essa observagao e verdadeira 
ainda que, no decorrer de sua vida util, o programa use um numero de palavras de memoria virtual centenas de 
vezes maior do que o numero de palavras de memoria principal da maquina. 

Se uma pagina que esta prestes a ser extralda nao tiver sido modificada desde que foi lida (uma ocorrencia 
provavel se a pagina contiver programa em vez de dados), nao e necessario escreve-la de volta no disco, porque 
ali ja existe uma copia exata. Se ela foi modificada desde que foi lida, a copia que esta no disco nao e mais exata, 
e a pagina deve ser reescrita. 

Se houver um meio de saber se a pagina nao mudou desde que foi lida (a pagina esta limpa), ou se, na verda- 
de, algo foi armazenado nela (pagina esta suja), pode-se evitar que as paginas limpas sejam reescritas, o que poupa 
muito tempo. Muitos computadores tern 1 bit por pagina na MMU, que esta ajustado para 0 quando a pagina e 
carregada e ajustado para 1 pelo microprograma ou hardware sempre que nela houver um armazenamento (isto 
e, sempre que ela ficar suja). Examinando esse bit, o sistema operacional pode descobrir se a pagina esta limpa 
ou suja e, por conseguinte, se e preciso reescreve-la ou nao. 

6.1.5 Tamanho de pagina e fragmentacao 

Se por acaso acontecer de o programa e os dados do usuario preencherem exatamente um numero inteiro 
de paginas, nao havera nenhum espago desperdigado quando eles es tiver em na memoria. Caso contrario, havera 
algum espago nao utilizado na ultima pagina. Por exemplo, se o programa e os dados precisarem de 26.000 bytes 
em uma maquina com 4.096 bytes por pagina, as primeiras seis paginas estarao cheias, totalizando 6 x 4.096 = 
24.576 bytes, e a ultima contera 26.000 - 24.576 = 1.424 bytes. Uma vez que ha espago para 4.096 bytes por 
pagina, 2.672 bytes serao desperdigados. Sempre que a setima pagina es tiver presente na memoria, esses bytes 
ocuparao a memoria principal, mas nao terao qualquer fungao util. O problema desses bytes desperdigados e 
denominado fragmentagao interna (porque o espago desperdigado e interno a alguma pagina). 

Se o tamanho da pagina for n bytes, a quantidade media de espago desperdigado na ultima pagina de um 
programa por fragmentagao interna sera n/2 bytes - uma situagao que sugere usar um tamanho pequeno para 
minimizar o desperdlcio. Por outro lado, uma pagina de tamanho pequeno significa muitas paginas, bem como 
uma grande tabela. Se a tabela de paginas for mantida em hardware, uma grande tabela de paginas significa que 
sera preciso mais registradores para armazena-la, o que aumenta o custo do computador. Alem disso, sera preciso 
mais tempo para carregar e salvar esses registradores sempre que um programa for iniciado ou interrompido. 

Alem do mais, paginas pequenas fazem uso ineficiente da largura de banda do disco. Dado que vamos esperar 
cerca de 10 ms antes que a transferencia possa comegar (busca + atraso rotacional), grandes transferences sao 
mais eficientes do que as pequenas. Com uma taxa de transference de 100 MB/s, transferir 8 KB adiciona somente 
70 ps em comparagao com transferir 1 KB. 

Todavia, paginas pequenas tambem tern a vantagem de, se o conjunto de trabalho consistir em um grande 
numero de regioes pequenas e separadas no espago de enderego virtual, pode haver menos acessos ao disco 
(paginagao excessiva) com uma pagina de tamanho pequeno do que com uma de tamanho grande. Por exemplo, 
considere uma matriz de 10.000 x 10.000 elementos, A, armazenada com A[1,1], A[2,1], A[3,1] e assim por dian- 
te, em palavras consecutivas de 8 bytes. Esse armazenamento ordenado por coluna significa que os elementos de 
linha 1, A[1,1], A[1,2], A[1,3], e seguintes, comegarao com 80.000 bytes de separagao. Um programa que esteja 
efetuando um calculo extensivo com todos os elementos dessa linha usaria 10.000 regioes, cada uma separada da 
proxima por 79.992 bytes. Se o tamanho de pagina fosse 8 KB, seria necessario um armazenamento total de 80 
MB para conter todas as paginas que estao sendo usadas. 
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Por outro lado, um tamanho de 1 KB exigiria somente 10 MB de RAM para conter todas as paginas. Se a 
memoria disponlvel fosse 32 MB, com um tamanho de pagina de 8 KB, o programa faria paginagao excessiva, mas 
com um tamanho de 1 KB isso nao aconteceria. Considerando todos os aspectos, a tendencia favorece paginas de 
tamanhos maiores. Na pratica, 4 KB e o mlnimo atualmente. 

6.1.6 Segmentacao 

A memoria virtual discutida anteriormente e unidimensional porque os enderegos virtuais vao de 0 ate algum 
enderego maximo, um enderego apos o outro. Ha muitos problemas para os quais poderia ser melhor ter dois ou 
mais espagos de enderegos virtuais separados do que ter so um. Por exemplo, um compilador pode ter muitas 
tabelas que sao montadas a medida que a compilagao prossegue; entre elas: 

1. A tabela de slmbolos, que contem os nomes e atributos de variaveis. 

2. O texto-fonte que esta sendo salvo para a listagem impressa. 

3. Uma tabela que contem todas as constantes inteiras e de ponto flutuante usadas. 

4. A arvore de analise (parse), que contem a analise sintatica do programa. 

5. A pilha usada para chamadas de procedimento dentro do compilador. 

Cada uma das quatro primeiras tabelas cresce de modo continuamente a medida que a compilagao prossegue. 
A ultima aumenta e diminui de modo imprevislvel durante a compilagao. Em uma memoria unidimensional, essas 
cinco tabelas teriam de ser alocadas como partes contlguas do espago de enderegos virtuais, como na Figura 6.7. 


Figura 6.7 Em um espaco de endereco unidimensional com tabelas que aumentam, uma tabela pode encostar em outra. 
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Considere o que acontece se um programa tiver um numero excepcionalmente grande de variaveis. A parte 
do espago de enderegos alocada para a tabela de slmbolos poderia ser preenchida por inteiro mesmo que houvesse 
muito espago disponlvel em outras tabelas. E claro que o compilador poderia apenas emitir uma mensagem dizen- 
do que a compilagao nao pode continuar porque ha muitas variaveis, mas isso nao parece muito justo quando ha 
espago nao utilizado nas outras tabelas. 
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Outra possibilidade e o compilador se fazer de Robin Hood, tomando espago das tabelas que tem muito, 
e dando-o as tabelas que tem pouco espago. Essas mudangas podem ser feitas, mas e o mesmo que administrar 
nossas proprias sobreposigoes - um aborrecimento na melhor das hipoteses e um trabalho tedioso e mal recom- 
pensado na pior delas. 

O que realmente precisamos e de um modo de livrar o programador da obrigagao de gerenciar a expansao e 
contragao de tabelas, do mesmo modo como a memoria virtual elimina a preocupagao de organizar o programa 
em sobreposigoes. 

Uma solugao direta e fornecer muitos espagos de enderego completamente independentes, denominados seg- 
mentos. Um segmento consiste em uma sequencia linear de enderegos, de 0 ate algum maximo. O comprimento 
de cada um pode ser qualquer coisa desde 0 ate o maximo permitido. Diferentes segmentos podem, e costumam 
ter, comprimentos diferentes. Alem do mais, comprimentos de segmentos as vezes mudam durante a execugao. 
O comprimento de um segmento de pilha pode ser aumentado sempre que algo for passado para ela e reduzido 
sempre que algo for dela retirado. 

Como cada segmento constitui um espago de enderego separado, diferentes segmentos podem se expandir 
ou encolher independentemente, sem que um afete o outro. Se uma pilha em certo segmento precisar de mais 
espago de enderegos para crescer, pode consegui-lo, porque nao ha nada mais em seu espago de enderego com 
o qual ela possa se chocar. E claro que um segmento pode ser preenchido completamente, mas eles costumam 
ser muito grandes, portanto, essa ocorrencia e rara. Para especificar um enderego nessa memoria segmentada ou 
bidimensional, o programa deve fornecer um enderego de duas partes: um numero de segmento e um enderego 
dentro dele. A Figura 6.8 ilustra uma memoria segmentada que esta sendo usada para as tabelas de compilador 
que discutimos antes. 


Figura 6.8 


Uma memoria segmentada permite que cada tabela cresca e encolha independentemente das outras tabelas. 
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Destacamos que um segmento e uma entidade logica, da qual o programador esta ciente e a qual usa como 
uma entidade logica unica. Um segmento poderia conter um procedimento, ou um vetor, ou uma pilha, ou um 
conjunto de variaveis escalares, mas, em geral, nao contem uma mistura de tipos diferentes. 

Uma memoria segmentada tem outras vantagens alem de simplificar o manuseio de estruturas de dados que 
podem aumentar e encolher. Se cada procedimento ocupar um segmento separado, tendo o enderego 0 como ini- 
cial, a interconexao de procedimentos compilados em separado e muito simplificada. Depois que todos os proce- 
dimentos que constituem um programa forem compilados e interconectados, uma chamada de procedimento para 
o que esta no segmento n usara o enderego de duas partes (n, 0) para enderegar a palavra 0 (o ponto de entrada). 
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Se, na sequencia, o procedimento no segmento n for modificado e recompilado, nenhum outro procedimento 
precisara ser alterado (porque nenhum enderego de inlcio foi modificado), mesmo que a nova versao seja maior 
do que a antiga. Com uma memoria unidimensional, os procedimentos normalmente sao empacotados bem aper- 
tados, um ao lado do outro, sem nenhum espago de enderego entre eles. Por conseguinte, alterar o tamanho de 
um procedimento pode afetar o enderego de inlcio de outros nao relacionados. Isso, por sua vez, requer modificar 
todos os procedimentos que chamam qualquer um dos que foram movidos, de modo a incorporar seus novos 
enderegos de inlcio. Se um programa contiver centenas de procedimentos, esse processo pode ser custoso. 

A segmentagao tambem facilita compartilhar procedimentos ou dados entre varios programas. Se um com- 
putador tiver varios programas executando em paralelo (seja processamento paralelo verdadeiro ou simulado) e 
todos usarem certos procedimentos de biblioteca, e desperdlcio de memoria principal fornecer a cada um deles 
uma copia particular. Alocando cada procedimento a um segmento separado, eles podem ser compartilhados com 
facilidade, o que elimina a necessidade de ter mais de uma copia flsica de qualquer procedimento compartilhado 
na memoria principal. O resultado e que se poupa memoria. 

Como cada segmento forma uma entidade logica da qual o programador esta ciente, tal como um procedi¬ 
mento, ou um vetor, ou uma pilha, segmentos diferentes podem ter diferentes tipos de protegao. Um segmento 
de procedimento poderia ser especificado como so de execugao, proibindo tentativas de leitura ou de escrita. Um 
vetor de ponto flutuante poderia ser especificado como de leitura/escrita, mas nao de execugao; desse modo, tenta¬ 
tivas de desvio para ele seriam descobertas. Essa protegao muitas vezes e util para identificar err os de programagao. 

E bom que voce entenda por que a protegao faz sentido em uma memoria segmentada, mas nao em uma 
memoria unidimensional (isto e, linear). Em uma memoria segmentada, o usuario esta ciente do que existe em 
cada segmento. Por exemplo, ele normalmente nao conteria um procedimento e uma pilha, mas um ou outro. 
Uma vez que cada segmento contem apenas um tipo de objeto, ele pode ter a protegao adequada para aquele tipo 
em particular. Paginagao e segmentagao sao comparadas na Figura 6.9. 


Figura 6.9 Comparacao entre paginacao e segmentacao. 



Em certo sentido, o conteudo de uma pagina e acidental. O programador nem mesmo esta ciente do fa to de 
que esta ocorrendo paginagao. Embora fosse posslvel colocar alguns bits em cada entrada da tabela de paginas 
de modo a especificar o acesso permitido, para utilizar esse recurso o programador teria de monitorar em que 
lugar de seu espago de enderego estariam as fronteiras das paginas. O problema dessa ideia e que a paginagao foi 
inventada exatamente para eliminar esse tipo de administragao. Como o usuario de uma memoria segmentada 
tern a ilusao de que todos os segmentos estao na memoria principal o tempo todo, esses segmentos podem ser 
enderegados sem que ele, o usuario, tenha de se preocupar com a administragao da eventual sobreposigao. 
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6.1.7 Implementacao de segmentacao 

A segmentagao pode ser realizada de dois modos: permutagao (ou swapping ) e paginagao (ou paging). No 
primeiro esquema, certo conjunto de segmentos esta na memoria em determinado instante. Se for feita uma 
referencia a um segmento que nao esta na memoria naquele momento, esse segmento e trazido para a memoria. 
Se nao houver espago para ele, um ou mais segmentos devem ser escritos para um disco antes (a menos que ali 
ja exista uma copia limpa, caso em que a copia da memoria pode ser abandonada). Em certo sentido, a permu¬ 
tagao de segmentos nao e diferente da paginagao por demanda: segmentos vem e vao conforme a necessidade. 

Todavia, ha uma diferenga essencial entre a implementagao de segmentagao e a de paginagao: paginas tern 
tamanho fixo, mas segmentos nao. A Figura 6.10(a) mostra um exemplo de memoria flsica que contem inicial- 
mente cinco segmentos. Agora, considere o que acontece se o segmento 1 for extraldo e o segmento 7, que e 
menor, for colocado em seu lugar. Chegamos a configuragao de memoria da Figura 6.10(b). Entre o segmento 
7 e o 2 ha uma area nao utilizada, isto e, uma lacuna. Entao, o segmento 4 e substituldo pelo 5, como na Figura 
6.10(c), e o segmento 3 e substituldo pelo 6, como na Figura 6.10(d). Apos o sistema executar durante algum 
tempo, a memoria estara dividida em varias porgoes, algumas contendo segmentos e outras contendo lacunas. 
Esse fenomeno e denominado fragmentagao externa (porque o espago e desperdigado fora dos segmentos, exter- 
namente, nas lacunas entre eles). As vezes, a fragmentagao externa e denominada tabuleiro de xadrez. 


Figura 6.10 (a)-(d) Desenvolvimento de fragmentacao externa, (e) Remocao da fragmentacao externa por compactacao. 
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Considere o que aconteceria se o programa referenciasse o segmento 3 na hora em que a memoria estivesse 
sofrendo fragmentagao externa, como na Figura 6.10(d). O espago total nas lacunas e 10 K, mais do que sufi- 
ciente para o segmento 3; porem, como o espago esta distribuldo em pedagos pequenos e inuteis, o segmento 3 
simplesmente nao pode ser carregado. Para isso, outro tern de ser removido antes. 

Um modo de evitar a fragmentagao externa e o seguinte: toda vez que aparecer uma lacuna, mover os seg¬ 
mentos que a seguem para mais perto do local 0 da memoria, o que elimina aquela lacuna, mas deixa uma grande 
no final. Como alternativa, poderlamos esperar ate que a fragmentagao externa se torne bastante seria (por exem¬ 
plo, mais do que certa porcentagem da memoria total desperdigada em lacunas) antes de executar a compactagao 
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(removendo as lacunas). A Figura 6.10(e) mostra como a memoria da Figura 6.10(d) ficaria apos a compactagao. 
A intengao de compactar memoria e reunir todas as lacunas pequenas e inuteis em uma grande, na qual um ou 
mais segmentos podem ser colocados. A compactagao tern uma obvia desvantagem: perde-se algum tempo para 
executa-la. Compactar depois que cada lacuna e criada consome tempo demais. 

Se o tempo requerido para compactar memoria for tao grande que nao se possa aceitar, e preciso um algorit- 
mo para determinar qual lacuna usar para dado segmento. O gerenciamento de lacunas requer man ter uma lista 
dos enderegos e tamanhos de todas elas. Um algoritmo popular, denominado melhor ajuste, escolhe a menor 
lacuna na qual o segmento necessario cabera. A ideia e corresponder lacunas com segmentos, para evitar partir 
um pedago de uma grande lacuna que mais tarde podera ser necessaria para um segmento grande. 

Outro algoritmo popular, denominado primeiro ajuste, percorre a lista de lacunas em clrculos e escolhe a 
primeira grande o suficiente para conter o segmento. E obvio que isso leva menos tempo do que verificar a lista 
inteira e achar o melhor ajuste. O surpreendente e que o algoritmo do primeiro ajuste tambem e melhor em ter- 
mos de desempenho global do que o algoritmo do melhor ajuste, porque esse ultimo tende a gerar muitas lacunas 
pequenas, totalmente inuteis (Knuth, 1997). 

Os algoritmos do primeiro ajuste e do melhor ajuste tendem a reduzir o tamanho medio da lacuna. Sempre 
que um segmento for colocado em uma lacuna maior do que ele, o que acontece quase toda vez (ajustes exatos 
sao raros), a lacuna e dividida em duas partes. Uma e ocupada pelo segmento e a outra e a nova lacuna. Essa nova 
lacuna e sempre menor que a antiga. A menos que haja um processo de compensagao para recriar lacunas grandes 
a partir de pequenas, ambos os algoritmos, o primeiro ajuste e o melhor ajuste, acabarao enchendo a memoria 
com pequenas lacunas inuteis. 

Um desses processos de compensagao e o que descreveremos a seguir. Sempre que um segmento for removido 
da memoria e um ou ambos de seus vizinhos mais proximos forem lacunas e nao segmentos, lacunas adjacentes 
podem ser reunidas em uma unica lacuna grande. Se o segmento 5 fosse removido da Figura 6.10(d), as duas 
lacunas ao redor dele e os 4 KB usados pelo segmento seriam fundidos em uma unica lacuna de 11 KB. 

No inlcio desta segao, afirmamos que ha dois modos de executar a segmentagao: permutagao e paginagao. 
Ate agora, a discussao concentrou-se na permutagao (swapping). Nesse esquema, segmentos inteiros sao passados 
de um lado para outro entre a memoria e o disco, por demanda. O outro modo e dividindo cada segmento em 
paginas de tamanho fixo e acessa-las por demanda. Nesse esquema, algumas das paginas de um segmento podem 
estar na memoria e algumas no disco. Para paginar um segmento, e preciso uma tabela de paginas separada para 
cada segmento. Uma vez que um segmento e apenas um espago de enderego linear, todas as tecnicas que vimos 
ate agora aplicam-se a cada segmento. Aqui, a unica caracterlstica nova e que cada segmento tern sua propria 
tabela de paginas. 

Um sistema operacional antigo que combinava segmentagao com paginagao e o MULTICS (MULTiplexed 
Information and Computing Service), de inlcio um esforgo conjunto do MIT, Bell Labs e General Electric 
(Corbato e Vyssotsky, 1965; e Organick, 1972). Os enderegos do MULTICS tinham duas partes: um numero 
de segmento e um enderego dentro do segmento. Havia um segmento descritor para cada processo, contendo 
um descritor por segmento. Quando um enderego virtual era apresentado ao hardware, o numero do segmen¬ 
to era usado como um Indice para o segmento de descritores, a fim de localizar o descritor do segmento que 
estava sendo acessado, conforme mostra a Figura 6.11. O descritor apontava para a tabela de paginas, per- 
mitindo que cada segmento fosse paginado pelo modo normal. Para acelerar o desempenho, as combinagoes 
segmento/pagina mais recentemente usadas eram mantidas em uma memoria associativa de 16 entradas em 
hardware, que permitia que elas fossem consultadas rapidamente. Embora o MULTICS ja tenha desaparecido 
ha muito, ele foi usado por bastante tempo, desde 1965 ate 30 de outubro de 2000, quando o ultimo sistema 
MULTICS foi desativado. Nao foram muitos os sistemas operacionais que duraram 35 anos. Alem do mais, seu 
esplrito continua vivo porque a memoria virtual de todas as CPUs da Intel, desde a 386, foi modelada seguindo 
de perto esse modelo. A historia e outros aspectos do MULTICS sao descritos em <www.multicians.org>. 
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Figura 6.11 Conversao de um endereco MULTICS de duas partes em um endereco da memoria principal. 



Enderego MULTICS de duas partes 


6.1.8 Memoria virtual no Core \1 

O Core i7 tem um sistema sofisticado de memoria virtual que suporta paginagao por demanda, segmen- 
tagao pura e segmentagao com paginagao. O coragao da memoria virtual do Core i7 consiste em duas tabelas: 
a LDT (Local Descriptor Table - tabela de descritores locais) e a GDT (Global Descriptor Table - tabela de 
descritores globais). Cada programa tem sua propria LDT, mas ha uma unica GDT, compartilhada por todos os 
programas no computador. A LDT descreve segmentos locais a cada programa, incluindo seu codigo, dados, pilha 
e assim por diante, ao passo que a GDT descreve segmentos de sistema, incluindo o proprio sistema operacional. 

Como descrevemos no Capitulo 5, para acessar um segmento, um programa Core i7 carrega primeiro um 
seletor para ele em um dos registradores de segmento. Durante a execugao, CS contem o seletor para o segmento 
de codigo, DS contem o seletor para o segmento de dados e assim por diante. Cada seletor e um numero de 16 
bits, conforme ilustra a Figura 6.12. 


Figura 6.12 Seletor do Core i7. 
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Um dos bits do seletor informa se o segmento e local ou global (isto e, se ele esta na LDT ou na GDT). 
Outros 13 bits especificam o numero de entrada da LDT ou GDT, portanto, cada tabela esta restrita a conter 8 KB 
(2 13 ) descritores de segmentos. Os outros 2 bits estao relacionados com protegao e serao descritos mais adiante. 
O descritor 0 e invalido e, se for usado, causa uma excegao. Ele pode ser carregado com seguranga em um regis- 
trador de segmento para indicar que este nao esta disponlvel no momento, mas causa uma excegao se for usado. 
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No instante em que um seletor e carregado em um registrador de segmento, o descritor correspondente e 
buscado na LDT ou GDT e armazenado em registradores internos da MMU, de modo que possa ser acessado 
rapidamente. Um descritor consiste em 8 bytes, incluindo enderego de base do segmento, o tamanho e outras 
informagoes do segmento, como descrito na Figura 6.13. 


Figura 6.13 Descritor de segmento de codigo do Core \ 1 . Segmentos de dados sao ligeiramente diferentes. 
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O formato do seletor foi escolhido com inteligencia para facilitar a localizagao do descritor. Em primeiro 
lugar, e selecionada a LDT ou a GDT, com base no bit 2 do seletor. Depois, o seletor e copiado para um registra¬ 
dor transitorio da MMU e os 3 bits de ordem baixa sao definidos como 0, o que equivale a multiplicar o numero 
de seletor de 13 bits por 8. Por fim, o enderego inicial da LDT ou da GDT (mantido em registradores internos da 
MMU) e somado ao seletor, para dar um ponteiro direto para o descritor. Por exemplo, o seletor 72 referencia a 
entrada 9 na GDT, que esta localizada no enderego GDT + 72. 

Vamos acompanhar as etapas pelas quais um par (seletor, deslocamento) e convertido em um enderego flsi- 
co. Logo que o hardware souber qual registrador de segmento esta sendo usado, pode achar o descritor completo 
correspondente aquele seletor em seus registradores internos. Se o segmento nao existir (seletor 0) ou nao estiver 
na memoria no momento em questao (bit P e 0), ocorre uma excegao. O primeiro caso e um erro de programagao; 
o ultimo requer que o sistema operacional va pega-lo. 

Em seguida, o hardware verifica se o deslocamento esta alem da extremidade do segmento, caso em que 
ocorre uma excegao. Pela logica, deveria haver simplesmente um campo de 32 bits no descritor informando o 
tamanho do segmento, mas ali ha somente 20 bits disponlveis, por isso e usado um esquema diferente. Se o bit 
G (granularidade) do campo for 0, o campo LIMIT e o tamanho exato do segmento, ate 1 MB. Se for 1, o campo 
LIMIT da o tamanho do segmento em paginas, em vez de bytes. O tamanho da pagina do Core i7 nunca e menor 
do que 4 KB, portanto, 20 bits sao suficientes para segmentos de ate 2 32 bytes. 

Considerando que o segmento esta na memoria e o deslocamento esta dentro da faixa, o Core i7 entao 
soma o campo BASE de 32 bits que esta no descritor com o deslocamento para formar o que e denominado 
enderego linear, conforme apresenta a Figura 6.14. O campo BASE e desmembrado em tres pedagos e espa- 
lhado pelo descritor para manter a compatibilidade com o 80286, no qual o BASE so tern 24 bits. Com isso, 
o campo BASE permite que cada segmento inicie em um lugar qualquer dentro do espago de enderego linear 
de 32 bits. 

Se a paginagao estiver desabilitada (por um bit em um registrador de controle global), o enderego linear e 
interpretado como o enderego flsico e enviado para a memoria para leitura ou escrita. Portanto, com a paginagao 
desabilitada, temos um esquema de segmentagao puro, no qual o enderego-base de cada segmento e dado em seu 
descritor. A proposito, e permitida a superposigao de segmentos, provavelmente porque daria muito trabalho e 
levaria muito tempo verificar se todos estavam separados. 
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Figura 6.14 


Conversao de um par (seletor, deslocamento) para um endereco linear. 



Por outro lado, se a paginagao estiver habilitada, o enderego linear e interpretado como virtual e mapeado 
para o enderego flsico com a utilizagao de tabelas de paginas, muito parecido com o esquema apresentado em 
nossos exemplos. A unica complicagao e que, com um enderego virtual de 32 bits e uma pagina de 4 KB, um 
segmento poderia conter 1 milhao de paginas, portanto, e usado um mapeamento de dois nlveis para reduzir o 
tamanho da tabela de paginas para segmentos pequenos. 

Cada programa em execugao tern um diretorio de paginas que consiste em 1.024 entradas de 32 bits e esta 
locabzado em um enderego apontado por um registrador global. Cada entrada nesse diretorio aponta para uma 
tabela de paginas que tambem contem 1.024 entradas de 32 bits. As entradas da tabela de paginas apontam para 
o quadro de paginas. O esquema e mostrado na Figura 6.15. 


Figura 6.15 Mapeamento de um endereco linear para um endereco flsico. 
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Na Figura 6.15(a), vemos um enderego linear desmembrado em tres campos: DIR, PAGE e OFF. O campo 
DIR e usado em primeiro lugar como um Indice para o diretorio de paginas para locabzar um ponteiro para a 
tabela de paginas adequada. Entao, o campo PAGE e usado como um indice para a tabela de paginas para achar 
o enderego flsico do quadro de pagina. Por fim, OFF e somado ao enderego do quadro de pagina para obter o 
enderego flsico do byte ou da palavra enderegada. 
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As entradas da tabela de paginas tem 32 bits cada, 20 dos quais tem um numero de quadro de pagina. Os bits 
restantes contem bits de acesso e bits sujos, definidos pelo hardware em proveito do sistema operacional, 
bits de protegao e outros bits uteis. 

Cada tabela de paginas tem entradas para 1.024 quadros de pagina de 4 KB, portanto, uma unica tabela de pagi¬ 
nas trata de 4 megabytes de memoria. Um segmento mais curto do que 4 M tera um diretorio de paginas com uma 
unica entrada, um ponteiro para sua unica tabela de paginas. Desse modo, a sobrecarga para segmentos curtos e de 
apenas duas paginas, em vez do milhao de paginas que seria necessario em uma tabela de paginas de um so nlvel. 

Para evitar fazer references repetidas a memoria, a MMU do Core i7 tem suporte especial do hardware para 
consultar de modo rapido as combinagoes DIR-PAGE mais recentemente usadas e mapea-las para o enderego 
flsico do quadro de pagina correspondente. So quando a combinagao corrente nao tiver sido usada recentemente 
e que as etapas mostradas na Figura 6.15 sao de fato executadas. 

Um pouco de racioclnio revelara que, quando e usada a paginagao, na verdade nao ha nenhum motivo para 
o campo BASE no descritor ser diferente de zero. Tudo o que BASE faz e causar um pequeno deslocamento para 
usar uma entrada no meio do diretorio de paginas, em vez de no inlcio. A unica e real razao para incluir BASE 
e permitir segmentagao pura (nao paginada) e manter a compatibilidade com o antigo 80286, que nao tinha 
paginagao. 

Tambem vale a pena mencionar que, se determinada aplicagao nao precisar de segmentagao, mas se conten- 
tar com um espago de enderego de 32 bits unico, paginado, isso e facil de obter. Entao, todos os registradores 
de segmento podem ser montados com o mesmo seletor, cujo descritor tem BASE = 0 e LIMIT ajustado para o 
maximo. Assim, o deslocamento da instrugao sera o enderego linear, com apenas um unico espago de enderego 
usado - portanto, paginagao tradicional. 

Agora terminamos nosso estudo da memoria virtual no Core i7. Vimos apenas uma pequena parte (embora 
bastante utilizada) do sistema de memoria virtual do Core i7; o leitor motivado podera se aprofundar na docu- 
mentagao do Core i7 para aprender sobre as extensoes do enderego virtual de 64 bits e o suporte para espagos de 
enderegos flsicos virtualizados. Todavia, antes de sairmos desse tema, vale a pena falar um pouco sobre protegao, 
uma vez que esse assunto esta bastante relacionado com a memoria virtual. O Core i7 suporta quatro nlveis de 
protegao, sendo o nlvel 0 o mais privilegiado e o nlvel 3 o menos privilegiado. Eles sao mostrados na Figura 6.16. 
A cada instante, um programa em execugao esta em certo nlvel, indicado por um campo de 2 bits em sua PSW 
(Program Status Word - palavra de estado de programa), um registrador de hardware que contem os bits de 
codigo de condigao e varios outros bits de estado. Alem do mais, cada segmento no sistema pertence a certo nlvel. 


Figura 6.16 
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Contanto que um programa se restrinja a usar segmentos em seu proprio nlvel, tudo funciona bem. 
Tentativas de acessar dados em um nlvel mais alto sao permitidas. Tentativas de acessar dados em um nlvel mais 
baixo sao ilegais e causam excegoes. Tentativas de chamar procedimentos em um nlvel diferente (mais alto ou 
mais baixo) sao permitidas, mas de modo cuidadosamente controlado. Para fazer uma chamada entre nlveis, a 
instrugao CALL deve conter um seletor em vez de um enderego. Esse seletor designa um descritor denominado 
porta de chamada, que da o enderego do procedimento a ser chamado. Assim, nao e posslvel desviar para o meio 
de um segmento de codigo arbitrario em um nlvel diferente. So pontos de entrada oficiais podem ser usados. 

Uma utilizagao posslvel desse mecanismo e sugerida na Figura 6.16. No nlvel 0, achamos o nucleo do siste¬ 
ma operacional, que manipula E/S, gerenciamento de memoria e outros assuntos crlticos. No nlvel 1, o tratador 
de chamada de sistema esta presente. Aqui, programas usuarios podem chamar procedimentos de modo a exe- 
cutar chamadas de sistema, mas apenas uma lista protegida e especlfica de procedimentos pode ser chamada. O 
nlvel 2 contem procedimentos de biblioteca, possivelmente compartilhados por muitos programas em execugao. 
Programas do usuario podem chamar esses procedimentos, mas nao modifica-los. Por fim, programas do usuario 
sao executados no nlvel 3, que tern a menor protegao. Assim como o esquema de gerenciamento de memoria do 
Core i7, o sistema de protegao e baseado no MULTICS. 

Excegoes e interrupgoes usam um mecanismo semelhante nas portas de chamada. Elas tambem referenciam 
descritores em vez de enderegos absolutos, e esses descritores apontam para procedimentos especlficos a ser 
executados. O campo TYPE na Figura 6.13 distingue entre segmentos de codigo, segmentos de dados e as varias 
especies de portas. 

6.1.9 Memoria virtual na CPU ARM do 0MAP4430 

A CPU ARM do OMAP4430 e uma maquina de 32 bits e suporta uma memoria virtual paginada baseada em 
enderegos virtuais de 32 bits, que sao traduzidos para um espago de enderegos flsicos de 32 bits. Dessa forma, 
uma CPU ARM pode suportar ate 2 32 bytes (4 GB) de memoria flsica. Quatro tamanhos de pagina sao suportados: 
4 KB, 64 KB, 1 MB e 16 MB. Os mapeamentos impllcitos por esses quatro tamanhos de pagina sao ilustrados na 
Figura 6.17. 


Figura 6.17 Mapeamentos virtual para fisico na CPU ARM do OMAP4430. 
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A CPU ARM do OMAP4430 usa uma estrutura de tabela de paginas semelhante a do Core i7. O mapeamento 
da tabela de pagina para uma pagina de enderego virtual de 4 KB aparece na Figura 6.18(a). A tabela de descri¬ 
tores de primeiro nlvel e indexada com os 12 bits mais significativos do enderego virtual. A entrada da tabela de 
descritores de primeiro nlvel indica o enderego flsico da tabela de descritores de segundo nlvel. Esse enderego, 
combinado com os 8 bits seguintes do enderego virtual, produz o enderego de descritor de pagina. O descritor de 
pagina contem o enderego do quadro de pagina flsica e informagoes de permissao com relagao aos acessos a pagina. 

O mapeamento de memoria virtual da CPU ARM do OMAP4430 acomoda quatro tamanhos de pagina. 
Tamanhos de pagina de 1 MB e 16 MB sao mapeados com um descritor de pagina localizado na tabela de descri¬ 
tores de primeiro nlvel. Nao e preciso usar tabelas de segundo nlvel nesse caso, pois todas as entradas apontariam 



























364 


Organizacao estruturada de computadores 


para a mesma pagina flsica grande. Os descritores de pagina de 64 KB estao localizados na tabela de descritores de 
segundo nlvel. Como cada entrada da tabela de descritores de segundo nlvel mapeia 4 KB da pagina de enderego 
virtual para uma pagina de enderego flsico de 4 KB, paginas de 64 KB exigem 16 descritores identicos na tabela de 
descritores de segundo nlvel. Agora, por que programador lucido do sistema operacional declararia uma pagina 
como tendo 64 KB de tamanho quando o mesmo espago seria exigido para mapear a pagina para paginas de 4 KB 
mais flexlveis? Porque, como veremos em breve, paginas de 64 KB exigem menos entradas na TLB, que sao um 
recurso crltico para o bom desempenho. 

Nada atrasa mais um programa do que um gargalo constritivo na memoria. Se voce olhou com atengao a 
Figura 6.18, provavelmente notou que, para cada acesso a memoria do programa, dois acessos adicionais sao neces- 
sarios para a tradugao de enderego. Esse aumento de 200% nos acessos a memoria para a tradugao do enderego 
virtual faria qualquer programa rastejar. Para evitar esse gargalo, a CPU ARM do OMAP4430 incorpora uma tabela 
em hardware denominada TLB (Translation Lookaside Buffer - buffer de tradugao lateral) que mapeia com rapi- 
dez numeros de pagina virtual para numeros de quadro de pagina flsica. Para o tamanho de pagina de 4 KB ha 2 20 
numeros de pagina virtual, isto e, mais de 1 milhao. E claro que nem todas podem ser mapeadas. 


Figura 6.18 Estruturas de dados usadas na traducao de enderecos virtuais na CPU ARM do OMAP4430. (a) Tabela de traducao de 
enderecos. (b) TLB. 
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Em vez disso, a TLB contem so os numeros de paginas virtuais mais recentemente usadas. A monitoragao 
de instrugoes e paginas de dados e feita em separado, sendo que a TLB retem os 128 numeros de paginas virtuais 
mais recentemente usadas em cada categoria. Cada entrada da TLB contem um numero de pagina virtual e o 
numero do quadro de pagina flsico correspondente. Quando um numero de processo, denominado identificador 
de espago de enderego (ASID - Address Space IDentifier), e um enderego virtual dentro desse contexto sao 
apresentados a MMU, ela usa circuitos especiais para comparar o numero de pagina virtual contido no contexto 
com todas as linhas da TLB para aquele contexto ao mesmo tempo. Se for encontrada uma correspondence, o 
numero de quadro de pagina naquela linha da TLB e combinado com o deslocamento tornado do enderego virtual 
para formar um enderego flsico de 32 bits e produzir alguns sinalizadores (flags), como bits de protegao. A TLB 
e ilustrada na Figura 6.18(b). 

Todavia, se nenhuma correspondence for encontrada, ocorre uma ausencia da TLB, que faz o hardware 
“percorrer” as tabelas de paginas. Quando a nova entrada do descritor de pagina flsica esta localizada na tabela de 
paginas, ela e verificada para ver se a pagina esta na memoria e, se sim, sua tradugao de enderego correspondente 
e carregada na TLB. Se a pagina nao estiver na memoria, uma agao padrao de ausencia de pagina e iniciada. Como 
a TLB tern apenas algumas linhas, e bem provavel que ela afaste uma linha existente na TLB. Acessos futuros a 
pagina afastada terao mais uma vez que percorrer as tabelas de pagina para obter o mapeamento do enderego. 
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Se muitas paginas estiverem sendo visitadas muito rapidamente, a TLB causara paginagao excessiva, e a maior 
parte dos acessos a memoria exigira um aumento de 200% para a tradugao de enderego. 

E interessante comparar os sistemas de memoria virtual do Core i7 e da CPU ARM do OMAP4430. O Core 
i7 suporta segmentagao pura, paginagao pura e segmentos paginados. A CPU ARM do OMAP4430 so tern pagi¬ 
nagao. Tanto o Core i7 quanto o OMAP4430 usam hardware para percorrer a tabela de paginas para recarregar 
a TLB no evento de uma ausencia da TLB. Outras arquiteturas, como SPARC e MIPS, apenas dao o controle ao 
sistema operacional no evento de ausencia da TLB. Essas arquiteturas definem instrugoes privilegiadas especiais 
para manipular a TLB, de modo que o sistema operacional possa realizar as consultas na tabela de pagina e as 
cargas na TLB necessarias para a tradugao do enderego. 


6.1.10 Memoria virtual e caching 

Embora a primeira vista memoria virtual (paginada por demanda) e caching nao paregam relacionadas, 
em termos de conceito elas sao muito similares. Com memoria virtual, todo o programa e mantido em disco e 
desmembrado em paginas de tamanho fixo. Algum subconjunto dessas paginas esta na memoria principal. Se o 
programa usar, na maior parte, as paginas na memoria, havera poucas faltas de pagina e o programa rodara com 
rapidez. Com caching , todo o programa e mantido na memoria principal e desmembrado em blocos de cache 
de tamanho fixo. Algum subconjunto desses blocos e mantido na cache. Se o programa usar, na maior parte, os 
blocos na cache , havera poucas ausencias desta e a execugao do programa sera rapida. Conceitualmente, as duas 
sao identicas, so que operam em nlveis diferentes na hierarquia. 

E claro que tambem ha algumas diferengas entre memoria virtual e caching. Uma delas e que as ausencias 
da cache sao manipuladas pelo hardware, enquanto faltas de pagina sao manipuladas pelo sistema operacional. 
Alem disso, blocos de cache tlpicos sao muito menores do que paginas (por exemplo, 64 bytes versus 8 KB). E 
mais, o mapeamento entre paginas virtuais e quadros de paginas e diferente, sendo que as tabelas de paginas sao 
organizadas indexando para os bits de ordem alta do enderego virtual, ao passo que caches indexam para os bits de 
ordem baixa do enderego de memoria. Nao obstante, e importante entender que sao diferengas de implementagao. 
O conceito subjacente e muito similar. 


6.2 Virtualizacao do hardware 

Tradicionalmente, arquiteturas de hardware tern sido projetadas com a expectativa de que trabalhem com 
mais de um sistema operacional de uma so vez. A probferagao de recursos de computagao compartilhados, como 
servidores de computagao em nuvem, se beneficia da capacidade de executar varios sistemas operacionais ao 
mesmo tempo. Por exemplo, os servigos de hospedagem na Internet em geral oferecem um sistema completo 
para clientes dispostos a pagar, no qual podem ser criados servigos Web. Seria caro demais instalar um novo 
computador na sala de servidores toda vez que um novo cliente fosse cadastrado. Em vez disso, os servigos de 
hospedagem costumam usar a virtualizagao para dar suporte a execugao de varios sistemas completos, inclusive 
o sistema operacional, em um servidor. Apenas quando os servidores existentes se tornam muito sobrecarregados 
e que o servigo de hospedagem precisa instalar um novo servidor flsico no pool de servidores. 

Embora existam tecnicas de virtualizagao somente por software, elas em geral atrapalham o desempenho do 
sistema virtual e exigem modificagoes especlficas no sistema operacional ou utilizam anabsadores de codigo com- 
plexos para reescrever programas em plena execugao. Essas desvantagens levaram os arquitetos a melhorarem o 
nivel OSM da arquitetura para dar suporte a virtualizagao eficiente diretamente no hardware. 

A virtualizagao do hardware, ilustrada na Figura 6.19, e uma combinagao de suporte de hardware e software 
que permite a execugao simultanea de multiplos sistemas operacionais em um unico computador flsico. Para o 
usuario, cada maquina virtual rodando no computador host parece ser um sistema de computagao completamente 
independente. O hipervisor e um componente de software, semelhante ao nucleo do sistema operacional, que cria 
e gerencia instancias de maquinas virtuais. O hardware oferece os eventos visiveis ao software que sao necessarios 
para o hipervisor executar pollticas de compartilhamento para a CPU, armazenamento e dispositivos de E/S. 
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Figura 6.19 


A virtualizacao por hardware permite que varios sistemas operacionais sejam executados simultaneamente no mesmo hardware 
hospedeiro. 0 hipervisor executa o compartilhamento da memoria e dispositivos de E/S do hospedeiro. 



A existencia de varias maquinas virtuais em um computador hospedeiro, cada uma talvez executando 
um sistema operacional diferente, oferece muitos beneflcios. Em sistemas de servidor, a virtualizagao da aos 
administradores de sistemas a capacidade de colocar diversas maquinas virtuais no mesmo servidor flsico e mudar 
as maquinas virtuais em execugao entre os servidores, para distribuir melhor a carga total. Maquinas virtuais 
tambem dao aos administradores de sistemas um controle mais minucioso sobre o acesso aos dispositivos de E/S. 
Por exemplo, a largura de banda de uma porta de rede virtuabzada poderia ser particionada com base nos nlveis 
de servigo dos usuarios. Para usuarios individual, a virtualizagao oferece a capacidade de executar varios sistemas 
operacionais ao mesmo tempo. 

Para realizar a virtualizagao no hardware, todas as instrugoes na arquitetura so precisam acessar os recursos da 
maquina virtual atual. Para quase todas as instrugoes, esse e um requisito trivial. Por exemplo, a instrugao aritme- 
tica so precisa acessar o arquivo de registradores, que pode ser virtualizado copiando os registradores da maquina 
virtual para o arquivo de registradores do processador hospedeiro em trocas de contexto da maquina virtual. 

A virtualizagao de instrugoes de acesso a memoria (por exemplo, cargas e armazenamentos) e ligeiramente 
mais complicada, pois essas instrugoes so devem acessar a memoria flsica alocada a maquina virtual em execu¬ 
gao. Em geral, um processador que da suporte a virtualizagao do hardware oferecera uma facilidade adicional de 
mapeamento de pagina, que mapeia as paginas de memoria flsica da maquina virtual as da maquina hospedeira. 
Por fim, as instrugoes de E/S (incluindo E/S mapeada na memoria) nao devem acessar diretamente os dispositivos 
de E/S flsicos, pois muitas pollticas de virtualizagao particionam o acesso aos dispositivos de E/S. Esse controle de 
E/S minucioso normalmente e implementado com interrupgoes ao hipervisor sempre que uma maquina virtual 
ten tar acessar um dispositivo de E/S. O hipervisor pode entao implementar a polltica de acesso ao recurso de 
E/S a sua escolha. Em geral, algum conjunto de dispositivos de E/S e aceito e os sistemas operacionais rodando 
nas maquinas virtuais, denominados sistemas operacionais convidados, deverao usar esses dispositivos aceitos. 

6.2.1 Virtualizacao do hardware no Core i7 

A virtualizagao do hardware no Core i7 e aceita pelas extensoes de maquina virtual (VMX), uma combinagao 
de extensoes de instrugao, memoria e interrupgao, que permitem o gerenciamento eficaz de maquinas virtuais. Com 
VMX, a virtualizagao de memoria e executada com o sistema EPT (Extended Page Table - tabela de pagina esten- 
dida), que e habilitado com a virtualizagao do hardware. A EPT traduz os enderegos de pagina flsica da maquina 
virtual para enderegos flsicos do hospedeiro. A EPT realiza esse mapeamento com uma estrutura de tabela de pagina 
multinlvel adicional que e atravessada durante uma ausencia de TLB da maquina virtual. O hipervisor mantem essa 
tabela e, ao fazer isso, ele pode executar qualquer polltica de compartilhamento de memoria flsica desejada. 

A virtualizagao de operagoes de E/S, para E/S mapeada na memoria e instrugoes de E/S, e implementada por 
meio do suporte estendido a interrupgoes, definido na VMCS (Virtual-Machine Control Structure - estrutura de 
controle da maquina virtual). Uma interrupgao do hipervisor e chamada sempre que uma maquina virtual acessa um 
dispositivo de E/S. Quando a interrupgao e recebida pelo hipervisor, ela pode realizar a operagao de E/S no software 
usando as pollticas necessarias para permitir o compartilhamento do dispositivo de E/S entre as maquinas virtuais. 
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6.3 Instrucoes de E/S de nivel OSM 

O conjunto de instrugoes de nivel ISA e completamente diferente do da microarquitetura. As operagoes que 
podem ser executadas e tambem os formatos das instrugoes sao bem diferentes nos dois nlveis. A existencia oca- 
sional de algumas instrugoes que sao as mesmas em ambos os nlveis e, basicamente, acidental. 

Ao contrario, o conjunto de instrugoes de nivel OSM contem grande parte das instrugoes de nivel ISA 
com a adigao de algumas instrugoes novas, porem importantes, e a remogao de algumas poucas instrugoes 
potencialmente perigosas. Entrada/salda e uma das areas em que os dois nlveis apresentam consideraveis 
diferengas. A razao para essas diferengas e simples: um usuario que pudesse executar as instrugoes de E/S 
reais de nivel ISA poderia ler dados confidenciais armazenados em qualquer lugar do sistema, escrever em 
diretorios de outros usuarios e, em geral, se transformar em um grande transtorno porque seria uma ameaga 
a seguranga do proprio sistema. Segundo, programadores normais, sensatos, nao querem fazer E/S no nivel ISA 
porque ela e tediosa e complexa ao extremo. Realizar uma E/S requer ajustar campos e bits em varios registra- 
dores de dispositivos, esperar ate que a operagao seja conclulda e entao verificar para ver o que aconteceu. So 
para dar um exemplo da verificagao, os discos tern bits de registrador de dispositivo para detectar os seguintes 
erros, entre muitos outros: 

1. O brago do disco nao realizou uma busca adequada. 

2. Memoria inexistente especificada como buffer. 

3. E/S de disco comegou antes do termino da anterior. 

4. Erro de temporizagao de leitura. 

5. Disco enderegado inexistente. 

6. Cilindro enderegado inexistente. 

7. Setor enderegado inexistente. 

8. Erro de soma de verificagao na leitura. 

9. Erro de verificagao de escrita apos operagao de escrita. 

Quando ocorre um desses erros, o bit correspondente em um registrador de dispositivo e ajustado. Poucos 
usuarios querem se incomodar com a monitoragao de todos esses bits de erro e uma grande quantidade de infor- 
magoes de estado adicionais. 

6.3.1 Arquivos 

Um modo de organizar a E/S virtual e usar uma abstragao denominada arquivo. Em sua forma mais simples, 
um arquivo consiste em uma sequencia de bytes escrita em um dispositivo de E/S. Se este for um dispositivo de 
armazenamento, como um disco, o arquivo pode ser lido de volta mais tarde; se o dispositivo nao for de arma- 
zenamento (por exemplo, uma impressora), nao pode ser lido de volta, e claro. Um disco pode conter muitos 
arquivos, cada um com algum tipo particular de dados, por exemplo, uma figura, uma planilha ou o texto do 
capitulo de um livro. Arquivos diferentes tern comprimentos e outras propriedades diferentes. A abstragao de um 
arquivo permite que a E/S virtual seja organizada de maneira simples. 

Para o sistema operacional, um arquivo e em geral apenas uma sequencia de bytes, como descrevemos 
antes. Qualquer outra estrutura cabe aos programas de aplicagao. A E/S de arquivo e feita por chamadas de 
sistema para abrir, ler, escrever e fechar arquivos. Antes de ler um arquivo, ele precisa ser aberto. O processo 
de abertura permite que o sistema operacional localize o arquivo em disco e traga informagoes da memoria 
necessarias para acessa-lo. 
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Uma vez aberto, um arquivo pode ser lido. A chamada de sistema read deve ter os seguintes parametros, no mlnimo: 

1. Uma indicagao de qual arquivo aberto deve ser lido. 

2. Um ponteiro para um buffer na memoria onde os dados serao mantidos. 

3. O numero de bytes a serem lidos. 


A chamada read coloca os dados requisitados no buffer. Em geral, ela retorna a quantidade de bytes lidos 
de fato, que pode ser menor do que a requisitada (voce nao pode ler 2.000 bytes de um arquivo de 1.000 bytes). 

Associado com cada arquivo aberto ha um ponteiro que informa qual byte sera lido em seguida. Apos um 
read, o ponteiro avanga conforme o numero de bytes lido, portanto, reads consecutivos leem blocos de dados 
consecutivos do arquivo. Em geral, ha um modo de ajustar esse ponteiro para um valor especlfico, de modo que 
os programas acessem aleatoriamente qualquer parte do arquivo. Quando um programa encerra a leitura de um 
arquivo, pode fecha-lo para informar ao sistema operacional que nao usara mais o arquivo, o que permite que o 
sistema libere o espago de tabela que esta sendo usado para conter informagoes sobre o arquivo. 

Computadores de grande porte ( mainframes ) ainda estao em uso (especialmente para manter sites de e-com¬ 
merce muito grandes), e alguns deles ainda trabalham com sistemas operacionais tradicionais (embora muitos 
trabalhem com Linux). Sistemas operacionais de mainframe tradicionais tern uma ideia mais sofisticada do que e 
um arquivo, e vale a pena revisar esse modelo, so para mostrar que o UNIX nao e o unico modo de fazer as coisas. 
Nesses sistemas tradicionais, um arquivo e uma sequencia de registros logicos, cada um com uma estrutura bem 
definida. Por exemplo, um registro logico poderia ser uma estrutura de dados que consiste em cinco itens: duas 
cadeias de caracteres, “Nome” e “Supervisor”; dois numeros inteiros, “Departamento” e “Escritorio”; e um valor 
booleano “SexoFeminino”. Alguns sistemas operacionais fazem uma distingao entre arquivos nos quais todos os 
registros em um arquivo tern a mesma estrutura e aqueles que contem uma mistura de diferentes tipos de registros. 

A instrugao de entrada virtual basica le o proximo registro do arquivo especificado e o coloca na memoria 
principal comegando no enderego especificado, como ilustrado na Figura 6.20. Para realizar essa operagao, a ins¬ 
trugao virtual deve ser informada de qual arquivo ler e em que lugar da memoria colocar o registro. Muitas vezes, 
ha opgoes para ler um registro especlfico, definido por sua posigao no arquivo ou por sua chave. 


Figura 6.20 Leitura de um arquivo que consiste em registros logicos. (a) Antes de ler registro 19. (b) Apos ler registro 19. 
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A instrugao de salda virtual basica escreve um registro logico da memoria para um arquivo. Instrugoes write 
sequenciais consecutivas produzem registros logicos consecutivos no arquivo. 

6.3.2 Implementacao de instrucoes de E/S de nivel OSM 

Para entender como sao realizadas instrugoes de E/S virtuais, e necessario examinar como os arquivos sao 
organizados e armazenados. Ha uma questao basica que todos os sistemas de arquivo devem encarar: a alocagao 
de armazenamento. A unidade de alocagao (as vezes chamada de bloco) pode ser um unico setor de disco, mas 
muitas vezes consiste em um bloco de setores consecutivos. 

Outra propriedade fundamental da implementagao de um sistema de arquivos e se um arquivo e armazenado 
em unidades de alocagao consecutivas ou nao. A Figura 6.21 descreve um disco simples com uma superflcie que 
contem cinco trilhas de 12 setores cada. A Figura 6.21(a) mostra um esquema de alocagao no qual o setor e a uni¬ 
dade basica de alocagao de espago e em que um arquivo consiste em setores consecutivos. A alocagao consecutiva 
de blocos de arquivo e muito usada em CD-ROMs. A Figura 6.21(b) mostra um esquema de alocagao no qual o 
setor e a unidade basica de alocagao e em que o arquivo nao precisa ocupar setores consecutivos. Esse esquema 
e a norma para discos rlgidos (e, claro, para discos em estado solido). 


Figura 6.21 Estrategias de alocacao de disco, (a) Arquivo em setores consecutivos. (b) Arquivo em setores nao consecutivos. 


Setor 11 Setor 0 Setor 11 Setor 0 



da rotagao da rotagao 

do disco do disco 


(a) 


(b) 


Ha uma importante distingao entre a visao que um programador de aplicagao tern de um arquivo e a visao 
que o sistema operacional tern desse arquivo. O programador o ve como uma sequencia linear de bytes ou regis¬ 
tros logicos. O sistema operacional o ve como uma colegao de unidades de alocagao ordenadas no disco, se bem 
que nao necessariamente consecutivas. 

Para entregar o byte ou registro logico n de algum arquivo por requisigao, o sistema operacional precisa ter 
algum metodo para localizar os dados. Se o arquivo for alocado consecutivamente, o sistema operacional so pre¬ 
cisa saber a localizagao do inlcio do arquivo para calcular a posigao do byte ou registro logico necessario. 

Se o arquivo nao for alocado de modo consecutivo, nao e posslvel calcular a posigao de um byte ou regis¬ 
tro logico qualquer a partir somente de sua posigao de inlcio. Em vez disso, e preciso uma tabela, denominada 
Indice de arquivo, que da as unidades de alocagao e seus enderegos de disco propriamente ditos. O Indice de 
arquivo pode ser organizado como uma lista de enderegos de blocos de disco (usada pelo UNIX), como uma lista 
de execugoes de blocos consecutivos (usada pelo Windows 7) ou como uma lista de registros logicos que dao o 
enderego de disco e o deslocamento para cada um. As vezes, cada registro logico tern uma chave e os programas 
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podem se referir a ele por sua chave, em vez de por seu numero de registro logico. Nesse caso, a ultima organi- 
zagao e requerida, e cada entrada contem nao so a localizagao do registro em disco, mas tambem sua chave. Essa 
organizagao e comum em mainframes. 

Um metodo alternativo de localizar unidades de alocagao de um arquivo e organiza-lo como uma lista enca- 
deada. Cada unidade de alocagao contem o enderego de sua sucessora. Um modo de executar esse esquema com 
eficiencia e man ter a tabela com todos os enderegos das sucessoras na memoria principal. Por exemplo, para um 
disco com 64K de unidades de alocagao, o sistema operacional poderia ter uma tabela na memoria com 64K de 
linhas, cada uma dando o Indice de sua sucessora. Por exemplo, se um arquivo ocupasse as unidades de alocagao 
4, 52 e 19, a linha 4 na tabela conteria um 52, a linha 52 conteria um 19, e a linha 19 conteria um codigo especial 
(por exemplo, 0 ou -1) para indicar o final de arquivo. Os sistemas de arquivos usados por MS-DOS, Windows 95 
e Windows 98 funcionavam dessa maneira. Versoes mais novas do Windows (2000, XP, Vista e 7) ainda suportam 
esse sistema, mas tambem tern seu proprio sistema de arquivos nativo, que funciona mais como o UNIX. 

Ate agora, discutimos arquivos alocados consecutivamente e arquivos alocados nao consecutivamente, mas 
nao especificamos por que sao usados dois tipos. Em arquivos alocados consecutivamente, a administragao de 
blocos e mais simples, mas quando o tamanho maximo de arquivo nao e conhecido com antecedencia, e raro 
poder usar essas tecnicas. Se um arquivo comegasse no setor j e lhe fosse permitido crescer para setores consecuti- 
vos, ele poderia encostar em um arquivo no setor k e nao ter espago para se expandir. Se o arquivo nao for alocado 
consecutivamente, nao havera problema algum, porque blocos sucessivos podem ser colocados em qualquer lugar 
do disco. Se um disco contiver uma quantidade de arquivos que estao crescendo e cujos tamanhos finais nao sao 
conhecidos, seria imposslvel armazenar cada um como um arquivo consecutivo. Mover um arquivo existente as 
vezes e posslvel, mas e sempre dispendioso em termos de tempo e recursos do sistema. 

Por outro lado, se o tamanho maximo de todos os arquivos for conhecido com antecedencia, como acontece 
na gravagao de um CD-ROM, o programa de gravagao pode alocar com antecedencia uma carreira de setores cujos 
comprimentos sao exatamente iguais a cada arquivo. Assim, se quisermos gravar arquivos com comprimentos de 
1.200, 700, 2.000 e 900 setores em um CD-ROM, eles podem apenas comegar nos setores 0, 1.200, 1.900 e 3.900, 
respectivamente (ignorando, nesse caso, a tabela de conteudo). Uma vez conhecido o primeiro setor do arquivo, 
e simples achar qualquer parte de qualquer arquivo. 

Para alocar espago no disco para um arquivo, o sistema operacional deve monitorar quais blocos estao dis- 
ponlveis e quais ja estao em uso armazenando outros arquivos. No caso de um CD-ROM, o calculo e feito com 
antecedencia, uma vez so, para todos os arquivos, e e definitivo; porem, quando se trata de um disco rlgido, os 
arquivos vem e vao o tempo todo. Um metodo consiste em man ter uma lista de todas as lacunas, sendo uma 
lacuna definida como qualquer quantidade de unidades de alocagao contlguas. Essa lista e denominada lista de 
livres. A Figura 6.22(a) ilustra a lista de livres para o disco da Figura 6.21(b). 


Figura 6.22 


Dois modos de monitorar setores disponiveis. (a) Lista de livres. (b) Mapa de bits. 


Trilha Setor Numero 
de setores 
na lacuna 


0 

0 

5 

0 

6 

6 

1 

0 

10 

1 

11 

1 

2 

1 

1 

2 

3 

3 

2 

7 

5 

3 

0 

3 

3 

9 

3 

4 

3 

8 


(a) 


Setor 


Trilha 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

0 

0 

0 

0 

0 

0 

1 

0 

0 

0 

0 

0 

0 

1 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

0 

2 

1 

0 

1 

0 

0 

0 

1 

0 

0 

0 

0 

0 

3 

0 

0 

0 

1 

1 

1 

1 

1 

1 

0 

0 

0 

4 

1 

1 

1 

0 

0 

0 

0 

0 

0 

0 

0 

1 


(b) 




















Capitulo 6 • 0 sistema operacional 


371 


Um metodo alternative* e manter um mapa de bits, com 1 bit por unidade de alocagao, conforme mostra 
a Figura 6.22(b). Um bit 1 indica que a unidade de alocagao ja esta ocupada, e um bit 0 indica que ela esta 
disponlvel. 

O primeiro metodo tern a vantagem de facilitar encontrar uma lacuna de determinado comprimento. Todavia, 
tern a desvantagem do tamanho variavel. A medida que arquivos sao criados e destruldos, o comprimento da lista 
sofrera variagoes, uma caracterlstica indesejavel. A tabela de bits tern a vantagem de seu tamanho constante. Alem 
do mais, mudar o estado de uma unidade de alocagao de disponlvel para ocupada e so uma questao de mudar 1 
bit. Contudo, e diflcil achar um bloco de determinado tamanho. Ambos os metodos requerem que a lista ou tabela 
de alocagao seja atualizada quando um arquivo no disco for alocado ou devolvido. 

Antes de encerrar o assunto da implementagao de sistema de arquivos, vale a pena comentar o tamanho da 
unidade de alocagao. Nesse caso, varios fa tores desempenham um papel fundamental. Primeiro, o tempo de busca 
e o atraso rotacional dominam acessos a disco. Como ja foram investidos 5-10 ms para chegar no inlcio de uma 
unidade de alocagao, e muito melhor ler 8 KB (cerca de 80 ps) do que 1 KB (cerca de 10 ps), ja que ler 8 KB como 
oito unidades de 1 KB exigira oito buscas. A eficiencia da transferencia e um ponto a favor de grandes unidades. 
E claro que, a medida que discos em estado solido se tornam mais baratos e mais comuns, esse argumento deixa 
de ser verdadeiro, pois esses dispositivos nao possuem tempo de busca. 

Tambem a favor de grandes unidades de alocagao e o fa to de que ter unidades pequenas significa ter muitas 
unidades de alocagao. Por sua vez, muitas unidades de alocagao implicam grandes indices de arquivo ou gran¬ 
des tabelas de listas encadeadas na memoria. Como uma nota historica, o MS-DOS comegou com a unidade de 
alocagao tendo um setor (512 bytes) e numeros de 16 bits sendo usados para identificar os setores. Quando os 
discos ultrapassaram 65.536 setores, o unico modo de usar todo o espago no disco e ainda usar numeros de 16 
bits para identificar as unidades de alocagao foi usar unidades de alocagao cada vez maiores. A primeira versao 
do Windows 95 tinha o mesmo problema, mas uma versao subsequente usava numeros de 32 bits. O Windows 
98 suportava ambos os tamanhos. 

Contudo, em favor de unidades de alocagao pequenas esta o fa to de que poucos arquivos ocupam exatamente 
um numero inteiro delas. Por conseguinte, sempre sera desperdigado algum espago na ultima de quase todos os 
arquivos. Se o arquivo for muito maior do que a unidade de alocagao, o espago desperdigado medio sera metade 
de uma unidade de alocagao. Quanto maior a unidade, maior a quantidade de espago desperdigado. Se o arquivo 
medio for muito menor do que ela, a maior parte do espago de disco sera desperdigada. 

Por exemplo, em uma versao MS-DOS ou Windows 95 release 1 com partigao de disco de 2 GB, as unidades 
de alocagao eram de 32 KB, portanto, um arquivo de 100 caracteres desperdigava 32.668 bytes de espago de disco. 
A eficiencia de armazenamento conta a favor de unidades de alocagao pequenas. Devido ao prego cada vez menor 
dos discos grandes, a eficiencia no tempo (isto e, o desempenho mais rapido) tende a ser o fa tor mais importante 
hoje, de modo que as unidades de alocagao tendem a aumentar com o tempo e o espago desperdigado no disco, 
simplesmente ser aceito. 

6.3.3 Instrucoes de gerenciamento de diretorio 

Nos primordios da computagao, as pessoas guardavam seus programas e dados em cartoes perfurados em 
arquivos nos seus escritorios. A medida que cresciam em tamanho e quantidade de programas e dados, essa situa- 
gao se tornou cada vez mais indesejavel. Nao demorou muito e surgiu a ideia de usar a memoria secundaria do 
computador (por exemplo, disco) como local de armazenamento para programas e dados como uma alternativa 
aos arquivos de escritorio. Informagoes que podem ser acessadas diretamente no computador sem a necessidade 
de intervengao humana sao denominadas em linha (online), ao contrario das informagoes fora de linha (offline), 
que requerem intervengao humana (por exemplo, inserir uma fita, CD-ROM, pendrive ou cartao de memoria SD) 
antes que o computador possa acessa-las. 

Informagoes em linha sao armazenadas em arquivos, portanto, acesslveis aos programas por meio das instru- 
goes de E/S de arquivo ja discutidas. Todavia, sao necessarias instrugoes adicionais para monitorar informagoes 
armazenadas em linha, reuni-las em unidades convenientes e protege-las contra utilizagao nao autorizada. 
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O modo usual de um sistema operacional organizar arquivos em linha e agrupa-los em diretorios. A Figura 
6.23 mostra um exemplo de organizagao de diretorio. Sao fornecidas chamadas de sistema para as seguintes fun- 
goes, no mlnimo: 

1. Criar um arquivo e entrar em um diretorio. 

2. Apagar um arquivo de um diretorio. 

3. Renomear um arquivo. 

4. Mudar o estado de protegao de um arquivo. 


Figura 6.23 


Diretorio de arquivos de usuario e o conteudo de uma entrada tfpica em um diretorio de arquivo. 


Arquivo 0 


Arquivo 1 

Arquivo 2 

Arquivo 3 

Arquivo 4 

Arquivo 5 


Arquivo 6 

Arquivo 7 

Arquivo 8 

Arquivo 9 

Arquivo 10 


Nome do arquivo: 

Patinho de borracha 

Comprimento: 

1.840 


Tipo: 

imagem/jpeg 

Data de criagao: 

Margo 16, 1066 

Ultimo acesso: 

Setembro 1, 1492 

Ultima alteragao: 

Julho 4, 1776 

Total de acessos: 

144 


Bloco 0: 

Trilha 4 

Setor 6 

Bloco 1: 

Trilha 19 

Setor 9 

Bloco 2: 

Trilha 11 

Setor 2 

Bloco 3: 

Trilha 77 

Setor 0 


Todos os sistemas operacionais modernos permitem que os usuarios mantenham mais de um diretorio de 
arquivos. Cada diretorio e, em si, um arquivo tlpico e, como tal, pode figurar na lista de outro, o que da origem a 
uma arvore de diretorios. Diretorios multiplos sao de particular utilidade para programadores que trabalham em 
diversos projetos, porque eles podem agrupar todos os arquivos relacionados a um projeto em um so diretorio. 
Enquanto eles estiverem trabalhando naquele projeto, nao serao perturbados por arquivos nao relacionados com 
ele. Os diretorios tambem sao uma maneira conveniente de compartilhar arquivos entre membros de um grupo. 


6.4 Instrucoes de nivel OSM para processamento paralelo 

Alguns algoritmos de computagao podem ser programados com maior conveniencia para dois ou mais proces- 
sos cooperativos que executam em paralelo (isto e, ao mesmo tempo, em processadores diferentes), em vez de para 
um unico processo. Outros processos de computagao podem ser divididos em porgoes, que entao podem ser execu- 
tadas em paralelo para reduzir o tempo transcorrido para o processo de computagao total. Para que varios processos 
trabalhem juntos em paralelo, sao necessarias algumas instrugoes virtuais. Elas serao discutidas nas proximas segoes. 

As leis da flsica dao mais uma razao para o atual interesse em processamento paralelo. Segundo a teoria espe¬ 
cial da relatividade de Einstein, e imposslvel transmitir sinais eletricos com velocidade maior do que a da luz, que 
e cerca de 30 cm/ns no vacuo, menor em fios de cobre ou fibras oticas. Esse limite tern importantes implicagoes 
para a organizagao de computadores. Por exemplo, se uma CPU precisar de dados da memoria principal que esta 
a 30 cm de distancia, levara ao menos 1 ns para que a requisigao chegue ate la e mais um nanossegundo para que a 
resposta volte ate a CPU. Por conseguinte, para superar a barreira do nanossegundo, os computadores terao de 
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ser extremamente minusculos. Uma abordagem alternativa para acelerar computadores e construir maquinas com 
muitas CPUs. Um computador com mil CPUs de 1 ns pode (em teoria) ter a mesma capacidade de computagao 
de uma CPU com um tempo de ciclo de 0,001 ns, mas o primeiro pode ser muito mais facil e mais barato de 
construir. A computagao paralela e discutida com detalhes no Capitulo 8. 

Em um computador com mais de uma CPU, cada um dos diversos processos cooperativos pode ser desig- 
nado a sua propria CPU, o que lhes permite prosseguir simultaneamente. Se houver apenas um processador 
disponlvel, o efeito do processamento paralelo pode ser simulado fazendo o processador executar cada processo 
por vez durante um curto perlodo de tempo. Em outras palavras, o processador pode ser compartilhado entre 
varios processos. 

A Figura 6.24 mostra a diferenga entre processamento verdadeiramente paralelo, com mais de um processa¬ 
dor flsico, e paralelo simulado, com so um processador flsico. Mesmo quando o processamento paralelo e simu¬ 
lado, e util considerar que cada processo tern seu proprio processador virtual dedicado. Os mesmos problemas de 
comunicagao que surgem quando ha processamento verdadeiramente paralelo tambem surgem no caso simulado. 
Nos dois casos, a depuragao dos problemas e muito diflcil. 


Figura 6.24 


(a) Processamento verdadeiramente paralelo com varias CPUs, (b) Processamento paralelo simulado pela comutacao dinamica 
de uma unica CPU entre tres processos. 


Processo 3 esperando pela CPU 




(a) (b) 


6.4.1 Criacao de processo 

Quando um programa deve ser executado, ele deve rodar como parte de algum processo. Esse processo, 
como todos os outros, e caracterizado por um estado e um espago de enderego por meio do qual o programa e 
os dados podem ser acessados. O estado inclui no mlnimo o contador de programa, uma palavra de estado de 
programa, um ponteiro de pilha e os registradores gerais. 

A maioria dos sistemas operacionais modernos permite que processos sejam criados e encerrados dinami- 
camente. Para tirar total proveito dessa caracterlstica e obter processamento paralelo, e preciso uma chamada de 
sistema para criar um novo processo. Essa chamada de sistema pode apenas fazer um clone do processo chamado, 
ou permitir ao chamador a criagao de um processo que especifique seu estado inicial, incluindo seu programa, 
dados e enderego de inlcio. 

Em alguns casos, a criagao de um processo (pai) mantem controle parcial, ou ate mesmo total, do processo 
criado (filho). Com essa finalidade, existem instrugoes virtuais para permitir que um processo-pai interrompa, 
reinicie, examine e encerre seus filhos. Em outros casos, um pai tern menos controle sobre seus filhos: uma vez 
criado um processo, nao ha nenhum modo de um pai interrompe-lo, reinicia-lo, examina-lo ou encerra-lo a forga. 
Entao, os dois processos rodam independentemente um do outro. 
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6.4.2 Condicoes de disputa 

Em muitos casos, processos paralelos precisam se comunicar e sincronizar de modo a realizar seu trabalho. 
Nesta segao, sera examinada a sincronizagao de processos e algumas das dificuldades serao explicadas por meio 
de um exemplo detalhado. Uma solugao para essas dificuldades sera dada na segao seguinte. 

Considere uma situagao em que ha dois processos independentes, o processo 1 e o processo 2, que se 
comunicam por meio de um buffer compartilhado na memoria principal. Por simplicidade, vamos denominar o 
processo 1 produtor e o processo 2 consumidor. O produtor calcula numeros primos e os coloca no buffer um 
por vez. O consumidor retira esses numeros do buffer um por vez e os imprime. 

Esses dois processos executam em paralelo a taxas diferentes. Se o produtor descobre que o buffer esta cheio, ele 
vai dormir, isto e, suspende temporariamente sua operagao a espera de um sinal do consumidor. Mais tarde, quando 
o consumidor tiver retirado um numero do buffer , ele envia um sinal ao produtor para acorda-lo; isto e, ele o rei- 
nicia. De modo semelhante, se o consumidor descobre que o buffer esta vazio, ele vai dormir. Quando o produtor 
tiver colocado um numero no buffer vazio, ele acorda o consumidor adormecido. 

Nesse exemplo, usaremos um buffer circular para comunicagao entre processos. Os ponteiros in e out serao 
usados da seguinte maneira: in aponta para a proxima palavra livre (onde o produtor colocara o proximo nume¬ 
ro primo) e out aponta para o proximo numero a ser retirado pelo consumidor. Quando in = out , o buffer esta 
vazio, conforme mostra a Figura 6.25(a). Apos o produtor ter gerado alguns primos, a situagao e a mostrada na 
Figura 6.25(b). A Figura 6.25(c) ilustra o buffer apos o consumidor ter retirado alguns desses numeros primos 
para imprimir. A Figura 6.25(d)-(f) representa o efeito da atividade continuada do buffer. A parte de cima deste 
e logicamente contlgua a parte de baixo; isto e, o buffer da uma volta completa. Quando houver uma repentina 
rajada de entrada e in tiver feito a volta completa e estiver apenas uma palavra atras de out (por exemplo, in = 52 
e out = 53), o buffer esta cheio. A ultima palavra nao e usada; se fosse, nao haveria maneira de dizer se in = out 
significa um buffer cheio ou vazio. 


Figura 6.25 


Uso de um buffer circular. 


In, 

out 



(a) (b) (c) (d) (e) (f) 


A Figura 6.26 mostra um modo simples de implementar o problema produtor-consumidor em Java. Essa 
solugao usa tres classes: principal (m), produtor (producer) e consumidor (consumer). A classe principal contem 
algumas definigoes de constantes, os ponteiros de buffer in e out, e o proprio buffer que, nesse exemplo, contem 
100 numeros primos que vao de buffer [0] a buffer[ 99]. As classes produtor e consumidor fazem o trabalho pro- 
priamente dito. 

Essa solugao usa threads Java para simular processos paralelos. Com essa solugao, temos uma classe produtor 
e uma classe consumidor, que sao instanciadas nas variaveis pec, respectivamente. Cada uma dessas classes e 
derivada de uma classe basica Thread , que tern um metodo run. O metodo run contem o codigo para o thread. 
Quando o metodo start de um objeto derivado de Thread e invocado, um novo thread e iniciado. 
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A_ 

Figura 6.26 Processamento paralelo com uma condicao de disputa fatal. 



public class m { 

final public static int BUF_SIZE = 100; 

final public static long MAX_PRIME = 100000000000L; 

public static int in = 0, out = 0; 

public static long buffer[ ] = new long[BUF_SIZE]; 

public static producer p; 

public static consumer c; 

// buffer executa de 0 a 99 
// pare aqui 

// ponteiros para os dados 
// primos armazenados aqui 
// nome do produtor 
// nome do consumidor 


public static void main(String args[ ]) { 
p = new produced ); 
c = new consumed ); 

р. start( ); 

с. start( ); 

// classe principal 
// crie o produtor 
// crie o consumidor 
// inicie o produtor 
// inicie o consumidor 


// Essa e uma fungao para incrementar in e out de modo cfclico 

public static int next(int k) {if (k < BUF SIZE - 1) return(k+1); else return(O);} 

} 


class producer extends Thread { 
public void run( ) { 
long prime = 2; 

// classe produtor 
// codigo do produtor 
// variavel transitoria 


while (prime < m.MAX_PRIME) { 
prime = next_prime(prime); 
if (m.next(m.in) == m.out) suspend(); 
m.bufferfm.in] = prime; 
m.in = m.next(m.in); 

if (m.next(m.out) == m.in) m.c.resume( ); 

} 

// declaragao PI 
// declaragao P2 
// declaragao P3 
// declaragao P4 
// declaragao P5 


f 

private long next prime(long prime){ ... } 

} 

// fungao que calcula o proximo primo 


class consumer extends Thread { 
public void run( ) { 
long emirp = 2; 

// classe consumidor 
// codigo do consumidor 
// variavel transitoria 


while (emirp < m.MAX_PRIME) { 
if (m.in == m.out) suspend( ); 
emirp = m.buffer[m.out]; 
m.out = m.next(m.out); 

if (m.out == m.next(m.next(m.in))) m.p.resume( ); 
System.out.println(emirp); 

} 

i 

i 

// declaragao Cl 
// declaragao C2 
// declaragao C3 
// declaragao C4 
// declaragao C5 

-• 


Cada thread e como um processo, exceto pelo fa to de que todos eles dentro de um unico programa Java execu- 
tam no mesmo espago de enderego. Essa caracterlstica e conveniente para que eles possam compartilhar um buffer. 
Se o computador tiver duas ou mais CPUs, cada thread pode ser escalonado em uma CPU diferente, o que permite 
paralelismo verdadeiro. Se houver so uma CPU, os threads compartilham tempo na mesma CPU. Continuamos a 
nos referir ao produtor e ao consumidor como processos (visto que estamos realmente interessados em processos 
paralelos), ainda que Java suporte somente threads paralelos e nao processos verdadeiramente paralelos. 

A fungao utilitaria next permite facil incremento de in e out, sem ter de escrever codigo para verificar a 
condigao de volta completa toda vez. Se o parametro para next for 98 ou menos, o proximo inteiro mais alto e 
retornado. Contudo, se o parametro for 99, atingimos o final do buffer , portanto, 0 e retornado. 

Precisamos de um modo pelo qual qualquer um dos processos va dormir por conta propria quando nao 
puder continuar. Os projetistas de Java entenderam a necessidade dessa habilidade e inclulram os metodos sus¬ 
pend (dormir) e resume (despertar) na classe Thread ja na primeira versao de Java. Eles sao usados na Figura 6.26. 
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Agora chegamos ao codigo propriamente dito para o produtor e o consumidor. Primeiro, o produtor gera 
um novo numero primo em PI. Observe a utilizagao de m.MAX_PRIME aqui. O prefixo m seguido pelo ponto e 
necessario para indicar que queremos dizer o MAX_PRIME definido na classe m. Pela mesma razao, esse prefixo 
tambem e necessario para in, out, buffer e next. 

Entao, o produtor verifica (em P2) para ver se in esta uma posigao atras de out. Se estiver (por exemplo, in = 
62 e out = 63), o buffer esta cheio e o produtor vai dormir chamando suspend em P2. Se o buffer nao estiver cheio, o 
novo numero primo e inserido no buffer (P3) e in e incrementado (P4). Se o novo valor de in estiver uma posigao 
a frente de out (P5) (por exemplo, in = 17 e out = 16), in e out eram iguais antes de in ter sido incrementado. O 
produtor conclui que o buffer estava vazio e que o consumidor estava, e ainda esta, dormindo. Por conseguinte, 
o produtor chama resume para despertar o consumidor (P5). Por fim, o produtor comega a procurar o proximo 
numero primo. 

Em termos estruturais, o programa do consumidor e semelhante. Primeiro, e feito um teste (Cl) para ver se 
o buffer esta vazio. Se estiver, nao ha nenhum trabalho para o consumidor, portanto, ele vai dormir. Se o buffer 
nao estiver vazio, ele retira o proximo numero a ser impresso (C2) e incrementa out (C3). Se out estiver duas 
posigoes a frente de in nesse ponto (C4), ele deveria estar uma posigao a frente de in antes de ser incrementado 
dessa ultima vez. Como in = out - lea condigao de “ buffer cheio”, o produtor devia estar dormindo e, portanto, 
o consumidor o acorda com resume. Por fim, o numero e impresso (C5) e o ciclo se repete. 

Infelizmente, esse projeto contem uma falha fatal, como ilustrado na Figura 6.27. Lembre-se de que os dois 
processos executam sem sincronia e a velocidades diferentes, possivelmente variaveis. Considere o caso em que 
sobra somente um numero no buffer, na entrada 21, e in = 22 e out = 21, como mostra a Figura 6.27(a). O produtor 
esta na declaragao PI procurando um numero primo e o consumidor esta ocupado em C5 imprimindo o numero 
na posigao 20. O consumidor termina de imprimir o numero, faz o teste em Cl e retira o ultimo numero do buffer em 
C2. Entao, incrementa out. Nesse instante, ambos, in e out, tern o valor 22. O consumidor imprime o numero e 
em seguida vai para Cl, onde busca in e out na memoria para compara-los, como mostra a Figura 6.27(b). 

Nesse exato momento, apos o consumidor ter buscado in e out, mas antes de te-los comparado, o produtor 
acha o proximo numero primo, coloca-o no buffer em P3 e incrementa in em P4. Agora, in = 23 e out = 22. Em 
P5, o produtor descobre que in = next(out). Em outras palavras, in e 1 a mais do que out, o que significa que 
agora ha um item no buffer. Por conseguinte, o produtor conclui (incorretamente) que o consumidor deve estar 
dormindo, portanto, envia um sinal de despertar (isto e, chama resume), como ilustra a Figura 6.27(c). Claro 
que o consumidor ainda esta acordado, portanto, o sinal de despertar e perdido. O produtor comega a procurar 
o proximo numero primo. 

Nesse instante, o consumidor continua. Ele ja buscou in e out da memoria antes que o produtor colocasse 
o ultimo numero no buffer. Como ambos tern valor 22, o consumidor vai dormir. Agora, o produtor acha um 
novo numero primo. Verifica os ponteiros e encontra in = 24 e out = 22, portanto, entende que ha dois numeros 
no buffer (verdadeiro) e que o consumidor esta acordado (falso). O produtor continua em lago ate que, por fim, 
enche o buffer e vai dormir. Agora, ambos os processos estao dormindo e assim ficarao para sempre. 

Nesse caso, a grande dificuldade e que, entre o instante em que consumidor buscou in e out e o instante 
em que foi dormir, o produtor se esgueirou para dentro do buffer, descobriu que in = out + 1 , entendeu que o 
consumidor estava dormindo (mas ele ainda nao estava) e enviou um sinal de despertar que foi perdido porque 
o consumidor ainda estava acordado. Essa dificuldade e conhecida como condigao de disputa, porque o sucesso 
do metodo depende de quern vence a corrida para testar in e out apos out ter sido incrementado. 

O problema das condigoes de disputa e bem conhecido. Na verdade, e tao serio que, varios anos apos a 
introdugao da linguagem Java, a Sun mudou a classe Thread e removeu as chamadas suspend e resume porque 
levavam a condigoes de disputa com muita frequencia. A solugao oferecida foi baseada na linguagem, mas, como 
aqui estamos estudando sistemas operacionais, discutiremos uma outra solugao suportada por muitos sistemas 
operacionais, incluindo UNIX e Windows 7. 
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Figura 6.27 


Falha do mecanismo de comunicacao produtor-consumidor. 
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6.4.3 Sincronizacao de processos usando semaforos 

A condigao de disputa pode ser resolvida pelo menos de duas maneiras. Uma solugao consiste em equipar 
cada processo com um “bit de espera para despertar”. Sempre que uma instrugao de despertar for enviada a um 
processo que ainda esta executando, seu bit de espera para despertar e ajustado. Sempre que o processo for dormir 
quando o bit de espera para despertar estiver marcado, o processo e imediatamente reiniciado e o bit de espera 
para despertar e apagado. O bit de espera para despertar armazena o sinal de despertar superflu o para uso futuro. 

Embora resolva a condigao de disputa quando ha somente dois processos, esse metodo falha no caso geral 
de comunicagao entre n processos, porque pode acontecer que n - 1 sinais de despertar tenham de ser salvos. E 
claro que cada processo poderia estar equipado com n - 1 bits de espera para despertar, de modo a permitir que 
ele contasse ate n - 1 no sistema unario, mas essa solugao nao e funcional. 

Dijkstra (1968b) propos uma solugao mais geral para o problema da sincronizagao de processos paralelos. 
Em algum lugar da memoria ha algumas variaveis inteiras nao negativas denominadas semaforos. Duas chamadas 
de sistema que operam nos semaforos, up e down, sao fornecidas pelo sistema operacional. Up adiciona 1 a um 
semaforo e down subtrai 1 de um semaforo. 

Se uma operagao down for executada em um semaforo que e maior do que 0 no momento, o semaforo e 
decrementado de 1 e o processo que esta executando down continua. Contudo, se ele estiver em 0, a operagao 
down nao pode concluir; o processo que esta executando down e posto para dormir e continua adormecido ate 
que outro processo execute up nesse semaforo. Para que possam ser monitorados, processos adormecidos sao 
encadeados em uma fila. 

A instrugao up verifica se o semaforo esta em 0. Se estiver, o outro processo esta dormindo nele e o semaforo 
e aumentado em 1. O processo que esta dormindo pode entao concluir a operagao down que o suspendeu, reini- 
ciando o semaforo para 0 e permitindo que ambos os processos continuem. Uma instrugao up em um semaforo 
que nao esta em zero apenas o aumenta em 1. Em essencia, um semaforo proporciona um contador para armaze- 
nar sinais de despertar para utilizagao futura, de modo que eles nao sejam perdidos. Uma propriedade essencial 
de instrugoes de semaforo e que, tao logo um processo tenha iniciado uma instrugao em um semaforo, nenhum 
outro processo pode acessa-lo ate que o primeiro tenha concluldo sua instrugao ou tenha sido suspenso quando 
tentava executar uma instrugao down em um 0. A Figura 6.28 resume as propriedades essenciais das chamadas 
de sistema up e down. 
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Figura 6.28 


Efeito de uma operacao de semaforo. 
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Como mencionamos antes, Java tem uma solugao baseada em linguagem para lidar com condigoes de disputa 
e agora estamos discutindo sistemas operacionais. Por isso, precisamos de um meio para expressar a utilizagao 
de semaforos em Java, ainda que ele nao esteja na linguagem nem nas classes padronizadas. Vamos fazer isso 
admitindo que foram escritos dois metodos nativos, up e down, que fazem as chamadas de sistema up e down, 
respectivamente. Executando essas chamadas com inteiros ordinarios como parametros, temos um modo de 
expressar a utilizagao de semaforos em programas Java. 

A Figura 6.29 mostra como a condigao de disputa pode ser eliminada por meio da utilizagao de semaforos. 
Dois deles sao acrescentados a classe m: available (disponlvel), que e inicialmente 100 (o tamanho do buffer), e filled 
(preenchido), que e inicialmente 0. O produtor comega executando em PI na Figura 6.29 e o consumidor comega 
executando em Cl, como antes. A chamada down em filled interrompe o processador consumidor imediatamente. 
Quando o produtor tiver encontrado o primeiro numero primo, chama down tendo available como parametro, 
definindo available como 99. Em P5, ele chama up tendo filled como parametro, fazend o filled igual a 1. Essa agao 
libera o consumidor, que agora pode concluir sua chamada down que estava suspensa. Nesse ponto, filled eOe 
ambos os processos estao executando. 

Agora, vamos reexaminar a condigao de disputa. Em dado instante, in = 22, out = 21, o produtor esta em 
PI e o consumidor esta em C5. O consumidor termina o que estava fazendo e chega a Cl, onde chama down 
em filled, que tinha o valor 1 antes da chamada e 0 depois dela. Entao, o consumidor retira o ultimo numero do 
buffer e aumenta available, que passa para 100. O consumidor imprime o numero e vai para Cl. Um pouco antes 
de o consumidor poder chamar down, o produtor encontra o proximo primo e executa as declaragoes P2, P3 e 
P4 em rapida sucessao. 

Nesse ponto, filled e 0. O produtor esta prestes a aumenta-lo com uma up e o consumidor esta prestes a 
chamar down. Se o consumidor executar sua instrugao em primeiro lugar, sera suspenso ate que o produtor o 
libere (chamando up). Por outro lado, se o produtor executar em primeiro lugar, o semaforo sera ajustado para 1 
e o consumidor nao sera suspenso de modo algum. Em ambos os casos, nenhum sinal de despertar fica perdido. 
E claro que essa era nossa meta quando introduzimos semaforos. 

A propriedade essencial das operagoes de semaforo e que elas sao indivislveis. Uma vez iniciada uma ope- 
ragao de semaforo, nenhum outro processo pode usar o semaforo ate que o primeiro processo tenha concluldo a 
operagao ou entao tenha sido suspenso na tentativa. Ademais, com semaforos, nao se perdem sinais de despertar. 
Por comparagao, as declaragoes if da Figura 6.26 nao sao indivislveis. Entre a avaliagao da condigao e a execugao 
da declaragao selecionada, outro processo pode enviar um sinal de despertar. 

Na verdade, o problema da sincronizagao de processo foi eliminado declarando que as chamadas do sistema 
up e down feitas por up e down sao indivislveis. Para que essas operagoes sejam indivislveis, o sistema operacional 











Capitulo 6*0 sistema operacional 


379 


deve proibir que dois ou mais processos usem o mesmo semaforo ao mesmo tempo. No mlnimo, uma vez feita 
uma chamada de sistema up ou down, nenhum outro codigo do usuario sera executado ate que a chamada tenha 
sido conclulda. Em sistemas com um unico processador, as vezes sao implementados semaforos pela desabilitagao 
de interrupgoes durante operagoes de semaforo. Em sistemas multiprocessadores, essa estrategia nao funciona. 

Sincronizagao por semaforos e uma tecnica que funciona para qualquer quantidade de processos. Varios pro¬ 
cessos podem estar dormindo, tentando concluir uma chamada de sistema down no mesmo semaforo. Quando, 
por fim, algum outro processo executa uma chamada up naquele semaforo, um dos processos que esta a espera 
obtem permissao de concluir sua chamada down e continuar executando. 0 valor do semaforo permanece 0 e os 

outros processos continuam esperando. 


Figura 6.29 Processamento paralelo usando semaforos. 


public class m { 

final public static int BUF_SIZE = 100; 

final public static long MAX_PRIME = 100000000000L; 

public static int in = 0, out = 0; 

public static long buffer[ ] = new long[BUF_SIZE]; 

public static producer p; 

public static consumer c; 

public static int filled = 0, available = 100; 

// buffer vai de 0 a 99 
// pare aqui 

// ponteiros para os dados 
// primos armazenados aqui 
// nome do produtor 
// nome do consumidor 
// semaforos 

public static void main(String args[ ]) { 
p = new produced ); 
c = new consumed ); 

р. start(); 

с. start( ); 

// classe principal 
// crie o produtor 
// crie o consumidor 
// inicie o produtor 
// inicie o consumidor 

// Essa e uma fungao para incrementar in e out de modo cfclico 

public static int next(int k) {if (k < BUF SIZE - 1) return(k+1); else return(0);} 

i 

class producer extends Thread { 
native void up(int s); native void down(int s); 
public void run( ) { 
long prime = 2; 

// classe produtor 
// metodos em semaforos 
// codigo do produtor 
// variavel transitoria 

while (prime < m.MAX_PRIME) { 
prime = next_prime(prime); 
down(m. available); 
m.buffer[m.in] = prime; 
m.in = m.next(m.in); 
up(m.filled); 

// declaragao PI 
// declaragao P2 
// declaragao P3 
// declaragao P4 
// declaragao P5 


) 


) 


private long next prime(long prime){ ... } 

} 

// fungao que calcula o proximo primo 

class consumer extends Thread { 

// classe consumidor 

native void up(int s); native void down(int s); 

// metodos em semaforos 

public void run() { 

// codigo do consumidor 

long emirp = 2; 

// variavel transitoria 

while (emirp < m.MAX_PRIME) { 

down(m.filled); 

// declaragao Cl 

emirp = m.buffer[m.out]; 

// declaragao C2 

m.out = m.next(m.out); 

// declaragao C3 

up(m. available); 

// declaragao C4 

System.out.println(emirp); 

i 

i 

i 

// declaragao C5 
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Uma analogia pode esclarecer melhor a natureza dos semaforos. Imagine um piquenique com 20 times de 
voleibol divididos em 10 jogos (processos), cada time jogando em sua propria quadra, e um grande cesto (o 
semaforo) que contem as bolas do jogo. Infelizmente, ha apenas sete bolas disponlveis. Em qualquer instante, ha 
entre zero e sete bolas no cesto (o semaforo tern um valor entre 0 e 7). Colocar uma bola no cesto e um up porque 
aumenta o valor do semaforo; retirar uma bola do cesto e um down porque reduz o valor. 

No inlcio do piquenique, cada quadra envia um jogador para pegar uma bola na cesta. Sete deles, em sequen- 
cia, conseguem pegar uma bola (concluem down); tres sao forgados a esperar por uma bola (isto e, nao concluem 
down). Seus jogos sao suspensos temporariamente. Em um dado instante, um dos outros jogos termina e uma 
bola e devolvida ao cesto (executa um up). Essa operagao permite que um dos tres jogadores que estao esperando 
perto do cesto obtenha uma bola (conclua um down inacabado), o que permite que um jogo continue. Os outros 
dois jogos permanecem suspensos ate que mais duas bolas sejam devolvidas ao cesto. Quando mais duas bolas 
voltarem (mais dois up sao executados), os dois ultimos jogos podem prosseguir. 


6.5 Exemplos de sistemas operacionais 

Nesta segao, continuaremos a discutir nossos exemplos de sistemas, o Core i7 e a CPU ARM do OMAP4430. 
Para cada um examinaremos um sistema operacional usado naquele processador. No caso do Core i7, usaremos o 
Windows; para a CPU ARM do OMAP4430, usaremos o UNIX. Uma vez que o UNIX e mais simples e, sob muitos 
aspectos, mais elegante, comegaremos com ele. Ademais, ele foi projetado e implementado em primeiro lugar e 
teve grande influencia no Windows 7, portanto, essa ordem faz mais sentido do que o inverso. 

6.5.1 Introduce 

Nesta segao, daremos uma breve introdugao de nossos dois exemplos de sistemas operacionais, UNIX e 
Windows 7, focalizando a historia, a estrutura e as chamadas de sistema. 

• UNIX 

O UNIX foi desenvolvido no Bell Labs no inlcio da decada de 1970. A primeira versao foi escrita por Ken 
Thompson em assembler para o minicomputador PDP-7, que foi logo seguida por uma versao para o PDP-11, 
escrita em uma nova linguagem denominada C, que foi inventada e implementada por Dennis Ritchie. Em 1974, 
Ritchie e seu colega, Ken Thompson, publicaram um artigo sobre o UNIX (Ritchie e Thompson, 1974) que 
marcou epoca. Mais tarde, eles receberam o prestigioso premio ACM Turing Award (Ritchie, 1984; Thompson, 
1984) pelo trabalho que descreveram nesse artigo. A publicagao estimulou muitas universidades a pedir uma 
copia do UNIX ao Bell Labs. Uma vez que, na epoca, a AT&T, empresa matriz do Bell Labs, era um monopolio 
regulamentado e nao tinha permissao para atuar no negocio de computadores, ela nao se opos a licenciar o UNIX 
para universidades, mediante uma modesta taxa. 

Por uma dessas coincidencias que muitas vezes moldam a historia, o PDP-11 era o computador preferido 
dos departamentos de ciencia da computagao de quase todas as universidades, e os sistemas operacionais que 
acompanhavam o PDP-11 tinham grande fama de terrlveis, tan to entre professores quanto entre alunos. O UNIX 
logo preencheu esse vacuo, alem do mais era fornecido com o codigo-fonte completo, o que permitia que todos 
fizessem experimentos interminaveis com ele. 

Uma das muitas universidades que adquiriram um UNIX logo de inlcio foi a Universidade da California em 
Berkeley. Como o codigo-fonte completo estava disponlvel, Berkeley conseguiu fazer alteragoes substanciais no 
programa. As mais importantes foram uma versao para o minicomputador VAX e a adigao de memoria virtual 
paginada, a extensao dos nomes de arquivo de 14 para 255 caracteres e a inclusao do protocolo de rede TCP/IP, 
que agora e usado na Internet (em grande parte porque ele estava no UNIX de Berkeley). 

Enquanto Berkeley fazia todas essas mudangas, a propria AT&T continuava a desenvolver o UNIX, o que resultou 
no System III em 1982 e, em seguida, no System V em 1984. No final da decada de 1980, estavam em uso duas versoes 
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diferentes e bastante incompatlveis: UNIX de Berkeley e o System V. Essa divisao no mundo do UNIX, junto com o fato 
de nao existir qualquer padrao para formatos de programas binarios, inibiu muito o sucesso comercial do UNIX, porque 
os fabricantes de software nao podiam escrever e montar um pacote de programas UNIX com a expectativa de que eles 
executariam em qualquer sistema UNIX (como era comum com o MS-DOS). Apos muita polemica, foi criado um padrao 
denominado POSIX (Portable Operating System-IX) pelo IEEE Standards Board. Esse padrao tambem e conhecido 
por seu numero de padrao no IEEE, PI003, e mais tarde tornou-se um padrao internacional (International Standard). 

O padrao e dividido em muitas partes, cada uma abrangendo uma area diferente do UNIX. A primeira parte, 
P1003.1, define as chamadas de sistema; a segunda, PI003.2, define os programas utilitarios basicos e assim por diante. 
O padrao PI003.1 define cerca de 60 chamadas de sistema que todos os sistemas que seguem o padrao devem suportar. 
Sao as chamadas basicas para ler e gravar arquivos, criar novos processos e assim por diante. Praticamente todos os 
sistemas UNIX agora suportam as chamadas do sistema P1003.1. Todavia, muitos sistemas UNIX tambem suportam 
chamadas de sistema extras, em especial as definidas pelo System V e/ou as presentes no UNIX de Berkeley. Em geral, 
elas adicionam ate 200 chamadas de sistema ao conjunto. 

Em 1987, o autor deste livro (Tanenbaum) langou o codigo-fonte para uma versao pequena do UNIX, denomina¬ 
do MINIX, para utilizagao em universidades (Tanenbaum, 1987). Um dos alunos que estudou o MINIX em sua uni- 
versidade em Helsinque e o executou no PC que tinha em casa foi Linus Torvalds. Apos se familiarizar totalmente com 
o MINIX, Torvalds decidiu escrever um clone desse codigo-fonte, que denominou Linux e se tornou muito popular. 

Muitos sistemas operacionais usados hoje em plataformas ARM sao baseados no Linux. Ambos, MINIX e Linux, 
estao de acordo com o padrao POSIX, e quase tudo que for dito sobre o UNIX neste capitulo tambem se aplica a eles, 
a menos que digamos o contrario. 

Uma divisao aproximada das chamadas de sistema do Linux por categoria e dada na Figura 6.30. As chamadas 
de sistema de gerenciamento de arquivo e de diretorio sao as maiores e as mais importantes categorias. Linux e 
compatlvel principalmente com POSIX P1003.1, embora os desenvolvedores tenham se desviado da especificagao 
em certas areas. Porem, em geral, nao e diflcil fazer com que programas compatlveis com POSIX sejam montados e 
executados no Linux. 


Figura 6.30 Divisao aproximada de chamadas de sistema do UNIX. 


Categoria 

Alguns exemplos 

Gerenciamento de arquivo 

Abrir, ler, escrever, fechar e bloquear arquivos 

Gerenciamento de diretorio 

Criar e apagar diretorios; mover arquivos de um lado para outro 

Gerenciamento de processo 

Gerar, encerrar, monitorar e sinalizar processos 

Gerenciamento de memoria 

Compartilhar memoria entre processos; proteger paginas 

Obter/ajustar parametros 

Obter ID de usuario, grupo, processo; definir prioridade 

Datas e horarios 

Definir horarios de acesso a arquivos; usar temporizador de intervalo; execugao de perfil 

Rede 

Estabelecer/aceitar conexao; enviar/receber mensagens 

Diversos 

Habilitar contabilidade; manipular cotas de disco; reiniciar o sistema 


Uma area que se deve em grande parte ao UNIX de Berkeley, mais do que ao System V, e o trabalho em rede. 
Berkeley inventou o conceito de um soquete, que e a extremidade final de uma conexao de rede. As tomadas de 
quatro pinos para conexao de telefones servem como modelo para esse conceito. Um processo UNIX pode criar 
um soquete, ligar-se a ele e estabelecer uma conexao com um soquete em uma maquina distante. Entao, pode 
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trocar dados em ambas as diregoes por meio dessa conexao, em geral usando o protocolo TCP/IP. Visto que a 
tecnologia de rede existe no UNIX ha decadas, sendo muito estavel e madura, uma fragao substancial dos servi- 
dores da Internet executa UNIX. 

Como ha muitas implementagoes de UNIX, e diflcil dizer muita coisa sobre a estrutura do sistema opera- 
cional, visto que cada uma e um pouco diferente de todas as outras. Todavia, em geral, a Figura 6.31 se aplica a 
maioria delas. Na parte de baixo ha uma camada de drivers de dispositivo que separam o sistema de arquivos do 
hardware puro. No comego, cada driver de dispositivo era escrito como uma entidade independente, separada 
de todas as outras. Esse arranjo gerou grande duplicagao de esforgos, uma vez que muitos drivers tern de lidar 
com fluxo de controle, tratamento de erros, prioridades, separar dados de controle e assim por diante. Essa 
observagao levou Dennis Ritchie a desenvolver uma estrutura denominada fiuxos ( streams ) para escrever drivers 
como modulos. Com um fluxo, e posslvel estabelecer uma conexao de duas vias de um processo usuario para 
um dispositivo de hardware e inserir um ou mais modulos ao longo do caminho. O processo do usuario passa 
dados para o fluxo, que entao sao processados ou transformados por cada modulo, ate chegarem ao hardware. 
Para dados que chegam, ocorre o processamento inverso. 


Figura 6.31 


Estrutura de um sistema UNIX tfpico. 
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Em cima dos drivers de dispositivo vem o sistema de arquivos, que gerencia nomes de arquivo, diretorios, 
alocagao de bloco de disco, protegao e muito mais. Parte do sistema de arquivos e uma cache de blocos para con- 
ter os blocos mais recentemente lidos do disco, caso logo eles sejam de novo necessarios. Diversos desses sistemas 
foram usados ao longo dos anos, incluindo o sistema de arquivos rapido de Berkeley (McKusick et al., 1984), e 
sistemas de arquivos estruturados em log (Rosenblum e Ousterhout, 1991; e Seltzer et al., 1993). 

A outra parte do nucleo UNIX e a de gerenciamento de processos. Entre suas varias outras fungoes, ela 
manipula a IPC (InterProcess Communication - comunicagao entre processos), que permite aos processos se 
comunicarem um com o outro e se sincronizarem, para evitar condigoes de disputa. Varios mecanismos sao for- 
necidos. O codigo de gerenciamento de processos tambem manipula escalonamento de processos, que e baseado 
em prioridades. Os sinais, que sao uma forma (asslncrona) de interrupgao de software, sao gerenciados aqui. Por 
fim, tambem o gerenciamento de memoria e feito aqui. A maioria dos sistemas UNIX suporta memoria virtual 
paginada por demanda, as vezes com algumas caracterlsticas extras, como capacidade de varios processos com- 
partilharem regioes comuns de espago de enderego. 

Desde seu inlcio, o UNIX tentou ser um sistema pequeno, de modo a reforgar a confiabilidade e o desem- 
penho. As primeiras versoes do UNIX eram inteiramente baseadas em texto, e usavam terminais que podiam 
apresentar 24 ou 25 linhas de 80 caracteres ASCII. A interface de usuario era manipulada por um programa de 
nivel usuario denominado shell , ou interpretador de comandos, que oferecia uma interface de linha de comando. 
Uma vez que a shell nao fazia parte do nucleo, era facil adicionar novas shells ao UNIX e, com o passar do tempo, 
varias foram inventadas, cada vez mais sofisticadas. 
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Mais tarde, quando surgiram os terminais graficos, o MIT desenvolveu um sistema de janelas para o UNIX, 
denominado X Windows. Um pouco mais tarde, uma GUI (Graphical User Interface - interface grafica de 
usuario) totalmente desenvolvida, denominada Motif, foi colocada sobre o X Windows. Para se manter fiel a 
filosofia do UNIX de ter um nucleo pequeno, quase todos os codigos do X Windows e suas GUIs correspondentes 
executam em modo usuario, fora do nucleo. 

• Windows 7 

Quando foi langado em 1981, o IBM PC original vinha equipado com um sistema operacional de 16 bits, de 
modo real, monousuario, baseado em linhas de comando, denominado MS-DOS 1.0. Esse sistema operacional 
consistia em 8 KB de codigo residente na memoria. Dois anos depois, apareceu um sistema muito mais poderoso, 
de 24 KB, o MS-DOS 2.0, que continha um processador de linha de comando (shell), com varias caracterlsti- 
cas emprestadas do UNIX. Em 1984, quando a IBM langou o PC/AT, baseado no 286, ele veio equipado com o 
MS-DOS 3.0, entao com 36 KB. Ao longo dos anos, o MS-DOS continuou a incorporar novas caracterlsticas, mas 
ainda era um sistema baseado em linhas de comando. 

Inspirada pelo sucesso do Apple Macintosh, a Microsoft decidiu dar ao MS-DOS uma interface grafica de usua¬ 
rio, a qual deu o nome de Windows. As primeiras tres versoes do Windows, culminando no Windows 3.x, nao eram 
sistemas operacionais verdadeiros, mas interfaces graficas de usuario sobre o MS-DOS, que ainda estava no controle 
da maquina. Todos os programas executavam no mesmo espago de enderego e um hug em qualquer um deles poderia 
fazer todo o sistema parar de vez. 

O langamento do Windows 95 em 1995 ainda nao eliminou o MS-DOS, embora tenha introduzido uma nova 
versao, 7.0. Juntos, o Windows 95 e o MS-DOS 7.0 continham grande parte das caracterlsticas de um sistema opera¬ 
cional totalmente desenvolvido, incluindo memoria virtual, gerenciamento de processos e multiprogramagao. Todavia, 
o Windows 95 nao era um programa de 32 bits completo. Continha grandes partes do antigo codigo de 16 bits (bem 
como alguns de 32 bits) e ainda usava o sistema de arquivos do MS-DOS, com quase todas as suas limitagoes. As uni- 
cas mudangas importantes no sistema de arquivos foram a adigao de nomes de arquivo longos no lugar dos nomes de 
arquivo de 8 + 3 caracteres permitidos no MS-DOS, e a capacidade de ter mais de 65.536 blocos em um disco. 

Mesmo com o langamento do Windows 98 em 1998, o MS-DOS continuava la (agora na versao 7.1) e executava 
codigo de 16 bits. Embora um pouco mais de funcionalidade tenha migrado da parte do MS-DOS para a parte do 
Windows, e um layout de disco adequado para discos maiores agora fosse o padrao, na essencia o Windows 98 nao 
era muito diferente do Windows 95. A principal diferenga era a interface de usuario, que promo via uma integragao 
mais estreita entre o computador, a Internet e, ate certo ponto, a televisao. Foi essa integragao que atraiu a atengao do 
Departamento de Justiga dos Estados Unidos, que entrou com um processo judicial contra a Microsoft alegando que a 
empresa era um monopolio ilegal. O Windows 98 foi seguido pelo Windows Millennium Edition (ME), de vida curta, 
que era um Windows 98 ligeiramente melhorado. 

Enquanto ocorriam todos esses desenvolvimentos, a Microsoft tambem se ocupava de um sistema operacional de 
32 bits, completamente novo, que estava sendo escrito a partir do zero. Esse novo sistema foi denominado Windows 
New Technology, ou Windows NT. De inlcio, esse sistema era apenas uma substituigao melhorada de todos os outros 
sistemas operacionais para PCs com processadores Intel (alem de chips MIPS PowerPC); porem, por alguma razao, 
demorou um pouco para engrenar, e mais tarde foi redirecionado para a faixa de mercado de maior poder aquisitivo, 
onde encontrou um nicho em grandes servidores. A segunda versao do NT foi denominada Windows 2000 e tornou- 
-se a versao principal, tambem para o mercado de computadores de mesa. O sucessor do Windows 2000 foi o XP, mas 
as alteragoes foram relativamente pequenas (melhor compatibilidade e mais alguns recursos). Em 2007, foi langado o 
Windows Vista. O Vista executava muitas melhorias graficas em relagao ao Windows XP, e acrescentava muitas novas 
aplicagoes do usuario, como uma central de mldia. A adogao do Vista foi lenta por causa de seu desempenho fraco e 
da grande demanda de recursos. Apenas dois anos depois, o Windows 7 foi langado, que por todos os relatos e uma 
versao ajustada do Windows Vista. O Windows 7 funciona muito melhor em hardware mais antigo, e exige muito 
menos recursos de hardware. 

O Windows 7 e vendido em seis versoes diferentes. Tres sao para usuarios domesticos em diversos palses, duas 
visam usuarios de negocios e uma combina todos os recursos de todas as versoes. Essas versoes sao quase identicas e 
diferem principalmente no foco, recursos avangados e otimizagoes feitas. Vamos nos ater aos recursos basicos e nao 
faremos qualquer outra distingao entre essas versoes. 
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Antes de entrarmos na interface que o Windows 7 apresenta aos programadores, vamos dar uma rapida olhada em 
sua estrutura interna, conforme ilustra a Figura 6.32. Ela consiste em diversos modulos que sao estruturados em camadas 
e trabalham juntos para executar o sistema operacional. Cada modulo tern alguma fungao em particular e uma interface 
bem definida com outros modulos. Quase todos eles sao escritos em C, embora parte da interface grafica de dispositivo 
seja escrita em C++ e algumas pequenas partes das camadas inferiores sejam escritas em linguagem de montagem. 


Figura 6.32 


A estrutura do Windows 7. 
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A camada mais baixa e denominada camada de abstragao de hardware (HAL - Hardware Abstraction Layer). 
Sua fungao e apresentar o restante do sistema operacional com dispositivos de hardware abstratos, sem as imper- 
feigoes e idiossincrasias das quais o hardware real e tao ricamente dotado. Entre os dispositivos modelados estao 
caches fora do chip, temporizadores, barramentos de E/S, controladores de interrupgao e controladores de DMA. 
Expondo-os ao restante do sistema operacional de forma idealizada, torna-se mais facil portar o Windows 7 para 
outras plataformas de hardware, pois a maioria das modificagoes exigidas se concentra em um so lugar. 

Acima da HAL, o codigo e dividido em duas partes principais, o executivo NTOS e os drivers do Windows, o 
que inclui sistemas de arquivos, redes e codigo grafico. Em cima disso esta a camada do nucleo. Todo esse codigo 
roda no modo protegido do nucleo. 

O executivo gerencia as abstragoes fundamentais usadas no Windows 7, inclusive threads, processos, memoria 
virtual, objetos do nucleo e configuragoes. Aqui tambem estao os gerenciadores para chamadas de procedimento 
local, a cache de arquivos, E/S e seguranga. 

A camada do nucleo cuida do tratamento de excegoes, bem como o escalonamento e a sincronizagao. 

Fora do nucleo estao os programas do usuario e a biblioteca do sistema usada como interface para o sistema opera¬ 
cional. Ao contrario dos sistemas UNIX, a Microsoft nao encoraja os programas do usuario a fazerem chamadas diretas ao 
sistema. Em vez disso, eles devem fazer chamadas de procedimento na biblioteca. Para padronizar as diferentes versoes 
do Windows (por exemplo, XP, Vista e Windows 7), a Microsoft definiu um conjunto de chamadas, denominado API 
(Application Programming Interface - interface de programagao de aplicagao) Win32. Estes sao procedimentos de 
biblioteca que ou fazem chamadas de sistema para conseguir que o trabalho seja realizado ou, em alguns casos, realizam 
trabalho diretamente no procedimento da biblioteca do espago de usuario. Embora muitas chamadas de biblioteca do 
Windows 7 tenham sido incluldas desde que a Win32 foi definida, estas sao as chamadas basicas e vamos nos concentrar 
nelas. Mais tarde, quando o Windows foi portado para maquinas de 64 bits, a Microsoft mudou o nome Win32 para 
abranger ambas as versoes, de 32 bits e 64 bits, mas, para nossa finalidade, e suficiente examinar a versao de 32 bits. 

A filosofia da API Win32 e completamente diferente da filosofia do UNIX. Nessa ultima, as chamadas de sis¬ 
tema sao todas conhecidas do publico e formam uma interface minima: remover ainda que uma so delas reduziria 
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a funcionalidade do sistema operacional. A filosofia da Win32 e proporcionar uma interface muito abrangente, que 
muitas vezes oferece tres ou quatro modos de fazer a mesma coisa, e inclui muitas fungoes que claramente nao 
deveriam ser (e nao sao) chamadas de sistema, tal como uma chamada da API para copiar um arquivo inteiro. 

Muitas chamadas da API Win32 criam objetos de nucleo de um ou outro tipo, incluindo arquivos, processos, 
threads, conexoes etc. Toda chamada que cria um objeto de nucleo retorna ao chamador um resultado denominado 
manipulador (handle). Na sequencia, esse manipulador pode ser usado para executar operagoes sobre o objeto. 
Manipuladores sao especlficos do processo que criou o objeto ao qual o manipulador se refere. Eles nao podem ser 
passados diretamente para outro processo e ali serem usados (assim como descritores de arquivos do UNIX nao 
podem ser passados para outro processo e ali serem usados). Contudo, em certas circunstancias, e posslvel duplicar 
um manipulador e passa-lo a outros processos de modo protegido, permitindo-lhes o acesso controlado a objetos 
que pertengam a outros processos. Todo objeto pode ter um descritor de seguranga associado, que informa, com 
detalhes, quern pode e quern nao pode executar quais tipos de operagoes no objeto. 

As vezes, diz-se que o Windows 7 e orientado a objeto porque o unico modo de manipular objetos de nucleo 
e invocando metodos (fungoes da API) sobre seus manipuladores, que sao retornados quando os objetos sao 
criados. Por outro lado, faltam-lhe algumas das propriedades mais basicas de sistemas orientados a objeto, como 
heranga e polimorfismo. 

6.5.2 Exemplos de memoria virtual 

Nesta segao, estudaremos a memoria virtual no UNIX e no Windows 7. Em grande parte, elas sao bastante 
semelhantes do ponto de vista do programador. 

• Memoria virtual do UNIX 

O modelo de memoria do UNIX e simples. Cada processo tern tres segmentos: codigo, dados e pilha, como 
ilustrado na Figura 6.33. Em uma maquina com um unico espago de enderego linear, o codigo geralmente e 
colocado proximo a parte de baixo da memoria, seguido pelos dados. A pilha e colocada na parte de cima da 
memoria. O tamanho do codigo e fixo, mas os dados e a pilha podem crescer, ate mesmo em diregoes opostas. 
Esse modelo e facil de implementar em praticamente qualquer maquina e e usado por variantes do Linux que 
rodam nas CPUs ARM do OMAP4430. 


Figura 6.33 Espaco de endereco de um unico processo UNIX. 


Enderego 



Ademais, se a maquina tiver paginagao, todo o espago de enderego pode ser paginado sem que os programas 
saibam. A unica coisa que eles notam e que e permitido ter programas maiores que a memoria flsica da maquina. 
Sistemas UNIX que nao tern paginagao em geral trocam processos inteiros entre memoria e disco para permitir 
que um numero arbitrariamente grande de processos compartilhe o tempo da CPU. 

No caso do UNIX de Berkeley, a descrigao anterior (memoria virtual paginada por demanda) e basicamente 
toda a historia. Todavia, o System V (e tambem o Linux) incluem diversas caracterlsticas que permitem aos usuarios 
gerenciar sua memoria virtual de modos mais sofisticados. A mais importante delas e a capacidade de um processo 
mapear (parte de) um arquivo para parte de seu espago de enderego. Por exemplo, se um arquivo de 12 KB for 
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mapeado no enderego virtual 144 K, uma leitura para palavra no enderego 144 KB le a primeira palavra do arquivo. 
Desse modo, a E/S de arquivo pode ser realizada sem fazer chamadas de sistema. Uma vez que alguns arquivos podem 
ultrapassar o tamanho do espago de enderegos virtuais, tambem e posslvel mapear apenas uma parte de um arquivo, 
em vez de todo ele. O mapeamento e feito em primeiro lugar abrindo o arquivo e recebendo de volta um descritor de 
arquivo, fd, que e usado para identificar o arquivo a ser mapeado. Entao, o processo faz uma chamada 

paddr = mmap(virtual_address, length, protection, flags, fd, file_offset) 

a qual mapeia um numero de bytes igual a length, que comegam emfile_offset no arquivo, para o espago de endere¬ 
gos virtuais, que comega em virtual_address. Como alternativa, o parametro flags pode ser ajustado para solicitar ao 
sistema que escolha um enderego virtual, que ele entao retorna como paddr. A regiao mapeada deve ser um numero 
inteiro de paginas e alinhada em uma fronteira de pagina. O parametro protection pode especificar qualquer com- 
binagao de permissao de leitura, escrita ou execugao. O mapeamento pode ser removido mais tarde com unmap. 

Varios processos podem ser mapeados no mesmo arquivo ao mesmo tempo. Sao oferecidas duas opgoes de 
compartilhamento. Na primeira, todas as paginas sao compartilhadas, portanto, as escritas feitas por um processo 
sao visiveis para todos os outros. Essa opgao fornece um caminho de comunicagao de alta largura de banda entre 
processos. A outra opgao compartilha as paginas contanto que nenhum processo as modifique. Contudo, tao 
logo qualquer processo tente escrever em uma pagina, obtem uma falha de protegao, e isso faz com que o sistema 
operacional lhe de uma copia particular da pagina, na qual ele pode escrever. Esse esquema, conhecido como 
copia na escrita, e usado quando cada um dos varios processos precisa da ilusao de ser o unico mapeado para um 
arquivo. Nesse modelo, o compartilhamento e uma otimizagao, e nao parte da semantica. 

• Memoria virtual do Windows 7 

No Windows 7, todo processo do usuario tern seu proprio espago de enderego virtual. Em sua versao de 32 bits, 
enderegos virtuais tern 32 bits de comprimento, de modo que cada processo tern 4 GB de espago de enderego virtual. 
Os 2 GB mais baixos estao disponlveis para o codigo e os dados do processo; os 2 GB mais altos permitem acesso 
(limitado) a memoria de nucleo, exceto em versoes de servidor (Server) do Windows, nas quais a divisao pode ser de 
3 GB para o usuario e 1 GB para o nucleo. O espago de enderego virtual e paginado por demanda, com um tamanho 
de pagina fixo (4 KB no Core i7). O espago de enderego para a versao de 64 bits do Windows 7 e semelhante, porem, 
o espago de codigo e de dados e nos 8 terabytes inferiores do espago de enderego virtual. 

Cada pagina virtual pode estar em um de tres estados: livre, reservada ou comprometida. Uma pagina livre nao 
esta em uso em um dado momento e uma referenda a ela causa uma falta de pagina. Quando um processo e iniciado, 
todas as suas paginas estao em estado livre ate que o programa e os dados iniciais sejam mapeados para seu espago 
de enderego. Tao logo codigo ou dados sejam mapeados para uma pagina, diz-se que a pagina esta comprometida. 
Uma referenda a uma pagina comprometida e mapeada usando o hardware de memoria virtual e e bem-sucedida se a 
pagina estiver na memoria principal. Caso contrario, ocorre uma falta de pagina e o sistema operacional acha a pagina 
e a traz do disco. Uma pagina virtual tambem pode estar em estado reservado, o que significa que ela nao esta dis- 
ponlvel para ser mapeada ate que a reserva seja removida explicitamente. Paginas reservadas sao usadas quando uma 
carreira de paginas consecutivas pode ser necessaria no futuro, como para a pilha. Alem dos atributos livre, reservada 
e comprometida, as paginas tambem tern outros, tais como pode ser lida (readable), pode ser escrita ( writable ) e pode 
ser executada ( executable ). Os 64 KB da parte de cima e os 64 KB da parte de baixo da memoria estao sempre livres, 
para pegar erros de ponteiro (ponteiros nao inicializados costumam ser 0 ou -1). 

Cada pagina comprometida tern uma pagina sombra no disco, onde ela e mantida quando nao estiver na memo¬ 
ria principal. Paginas livres e reservadas nao tern paginas sombras, portanto, references a elas causam faltas de pagina 
(o sistema nao pode trazer uma pagina do disco se nao houver nenhuma nele). As paginas sombras no disco sao 
organizadas em um ou mais arquivos de paginagao. O sistema operacional monitora qual pagina virtual e mapeada 
para qual parte de qual arquivo de paginagao. Para texto de programa (so de execugao), o arquivo binario executavel 
contem as paginas sombras; para as de dados, sao usados arquivos especiais de paginagao. 
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O Windows 7, assim como o System V, permite que arquivos sejam mapeados diretamente para regioes dos 
espagos de enderego virtual (isto e, carreiras de paginas). Assim que um arquivo tiver sido mapeado para o espago de 
enderego, ele pode ser lido ou escrito usando references comuns de memoria. 

Arquivos mapeados na memoria sao implementados do mesmo modo que outras paginas comprometidas, so que 
paginas sombras podem estar no disco em vez de no arquivo de paginagao. O resultado e que, quando um arquivo 
e mapeado, a versao que esta na memoria pode nao ser identica a do disco (devido a escritas recentes para o espago 
de enderego virtual). Contudo, quando o arquivo e desmapeado, ou descarregado explicitamente, a versao do disco 
e atualizada a partir da memoria. 

O Windows 7 permite de maneira expllcita que dois ou mais processos sejam mapeados para o mesmo arquivo 
ao mesmo tempo, possivelmente em enderegos virtuais diferentes. Lendo e escrevendo palavras de memoria, os pro¬ 
cessos agora podem se comunicar e passar dados de um para outro em largura de banda muito alta, ja que nenhuma 
copia e necessaria. Processos diferentes podem ter permissoes de acesso diferentes. Uma vez que todos os processos 
que usam um arquivo mapeado compartilham as mesmas paginas, alteragoes feitas por um deles serao de imediato 
visiveis para todos os outros, mesmo que o arquivo de disco ainda nao tenha sido atualizado. 

A API Win32 contem varias fungoes que permitem a um processo gerenciar sua memoria virtual explicitamente. As 
mais importantes dessas fungoes estao relacionadas na Figura 6.34. Todas elas operam em uma regiao que consiste em 
uma unica pagina ou em uma sequencia de duas ou mais paginas que sao consecutivas no espago de enderego virtual. 


Figura 6.34 Principals chamadas da API do Windows 7 para gerenciar a memoria virtual. 
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VirtualAlloc 

Reserva ou compromete uma regiao 

VirtualFree 

Libera ou descompromete uma regiao 

VirtualProtect 

Altera a protegao ler/escrever/executar em uma regiao 

VirtualQuery 

Consulta o estado de uma regiao 

VirtualLock 

Transforma uma regiao da memoria em residente, isto e, desabilita paginagao para ela 

VirtualUnlock 

Toma uma regiao paginavel do modo normal 

CreateFileMapping 

Cria um objeto de mapeamento de arquivo e Ihe designa (opcionalmente) um nome 

MapViewOfFile 

Mapeia (parte de) um arquivo para o espago de enderego 

UnmapViewOfFile 

Remove um arquivo mapeado do espago de enderego 

OpenFileMapping 

Abre um objeto de mapeamento de arquivo previamente criado 


As quatro primeiras fungoes da API sao autoexplicativas. As duas seguintes dao a um processo a capacidade 
de conectar certo numero de paginas na memoria de modo que elas nao sejam retiradas por paginagao e desfazer 
essa propriedade. Um programa de tempo real poderia precisar dessa capacidade, por exemplo. Apenas programas 
que executam em nome do administrador do sistema podem prender paginas na memoria. Alem disso, ha um 
limite imposto pelo sistema operacional para evitar que ate mesmo esses processos fiquem muito gananciosos. 
Embora nao sejam mostradas na Figura 6.34, o Windows 7 tambem tern fungoes da API para permitir que um 
processo acesse a memoria virtual de um processo diferente sobre o qual obteve o controle (isto e, para o qual 
tern um manipulador - handle). 
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As quatro ultimas fungoes da API relacionadas servem para gerenciar arquivos de memoria mapeada. Para 
mapear um arquivo, primeiro e preciso criar um objeto de mapeamento do arquivo com CreateFileMapping. Essa 
fungao retorna um manipulador para o objeto de mapeamento de arquivo e opcionalmente registra um nome 
no sistema de arquivos para que outro processo possa usa-lo. As duas fungoes seguintes mapeiam e desmapeiam 
arquivos, respectivamente. Um arquivo mapeado e (parte de) um arquivo de disco que pode ser lido ou escrito 
apenas acessando o espago de enderego virtual, sem E/S explicita. A ultima pode ser usada por um processo para 
mapear um arquivo que, no momento, tambem esta mapeado para um processo diferente. Desse modo, dois ou 
mais processos podem compartilhar regioes de seus espagos de enderego. 

Essas fungoes da API sao as fungoes basicas sobre as quais e construldo o resto do sistema de gerenciamento 
de memoria. Por exemplo, ha fungoes da API para alocar e liberar estruturas de dados em um ou mais heaps. 
Heaps sao usados para armazenar estruturas de dados criadas e destruldas dinamicamente. Os heaps nao sao remo- 
vidos pelo sistema operacional nas suas coletas de lixo, portanto, cabe ao usuario do software liberar blocos de 
memoria virtual que nao estao mais em uso. (Coleta de lixo e a remogao automatica de estruturas de dados nao 
utilizadas pelo sistema.) A utilizagao de heaps no Windows 7 e semelhante ao uso da fungao malloc em sistemas 
UNIX, exceto que pode haver varios heaps gerenciados independentemente. 

6.5.3 Exemplos de E/S virtual em nivel de sistema operacional 

O coragao de qualquer sistema operacional e proporcionar servigos a programas do usuario, em grande 
parte servigos de E/S como ler e escrever arquivos. Ambos, UNIX e Windows 7, oferecem uma ampla variedade 
de servigos de E/S para programas do usuario. O Windows 7 tern uma chamada equivalente para a maioria das 
chamadas de sistema UNIX, mas o contrario nao e verdadeiro, porque o Windows 7 tern muito mais chamadas e 
cada uma delas e muito mais complicada do que sua correspondente no UNIX. 

• E/S em UNIX 

Grande parte da popularidade do sistema UNIX pode ser atribulda a sua simplicidade que, por sua vez, e um 
resultado direto da organizagao do sistema de arquivos. Um arquivo normal e uma sequencia linear de bytes de 8 
bits que comega em 0 e em geral vai ate um maximo de 2 64 - 1 bytes. O sistema operacional em si nao impoe aos 
arquivos nenhuma estrutura de registro, embora muitos programas do usuario definam arquivos de texto ASCII 
como sequencias de linhas, cada uma terminada com um caractere de nova linha (linefeed). 

Associado com todo arquivo aberto ha um ponteiro para o proximo byte a ser lido ou escrito. As chamadas 
de sistema read e write leem e escrevem dados comegando na posigao do arquivo indicada pelo ponteiro. Ambas 
aumentam o ponteiro apos a operagao e uma quantidade igual ao numero de bytes transferidos. Contudo, e pos- 
sivel acesso aleatorio a arquivos ajustando explicitamente o ponteiro de arquivo para um valor especlfico. 

Alem de arquivos normais, o sistema UNIX tambem suporta arquivos especiais, que sao usados para acessar 
dispositivos de E/S. Cada dispositivo de E/S costuma ter um ou mais arquivos especiais designados a ele. Lendo e 
escrevendo do arquivo especial associado, um programa pode ler e escrever do dispositivo de E/S. Discos, impres- 
soras, terminais e muitos outros dispositivos sao manipulados dessa maneira. 

As principais chamadas de sistema de arquivos do UNIX estao relacionadas na Figura 6.35. A chamada creat 
(sem o e) pode ser usada para criar um novo arquivo. Ela nao e mais estritamente necessaria porque agora open 
tambem cria um novo arquivo. Unlink remove um arquivo, admitindo que o arquivo esteja so em um diretorio. 

Open e usada para abrir arquivos existentes (e criar novos). O flag mode informa como abri-lo (para leitura, 
para escrita etc.). A chamada retorna um inteiro de baixo valor denominado descritor de arquivo (fd, de ‘ file 
descriptor”), que identifica o arquivo em chamadas subsequentes. Quando este nao for mais necessario, close e 
chamada para liberar o descritor de arquivo. 

A E/S de arquivo propriamente dita e feita com read e write, cada uma das quais tern um descritor de 
arquivo que indica qual arquivo usar, um buffer de onde os dados vem e para onde vao, e um byte de contagem 
(count) que informa a quantidade de dados a serem transmitidos. Lseek e usada para posicionar o ponteiro de 
arquivo, o que possibilita o acesso aleatorio a arquivos. 
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Figura 6.35 Principals chamadas de sistema de arquivos UNIX. 


Chamada de sistema 

Significado | 

creat(name, mode) 

Cria um arquivo; mode especifica o modo de protegao 

unlink(name) 

Apaga um arquivo (admitindo que ha so um link para ele) 

open(name, mode) 

Abre ou cria um arquivo e retorna um descritor de arquivo 

close(fd) 

Fecha um arquivo 

read(fd, buffer, count) 

Le count bytes para o buffer 

write(fd, buffer, count) 

Escreve count bytes do buffer 

lseek(fd, offset, w) 

Move o ponteiro de arquivo conforme solicitado por offset e w 

stat(name, buffer) 

Retorna no buffer informagoes sobre um arquivo 

chmod(name, mode) 

Altera o modo de protegao de um arquivo 

fcntl(fd, cmd, ...) 

Realiza varias operagoes de controle, como bloquear (parte de) um arquivo 


Stat retorna informagoes sobre um arquivo, entre elas seu tamanho, quando foi acessado pela ultima vez, 
proprietario e outros. Chmod altera o modo de protegao de um arquivo, por exemplo, para permitir ou proibir sua 
leitura por usuarios que nao sejam o proprietario. Por fim, fcntl executa varias operagoes diversas em um arquivo, 
tais como bloquea-lo e desbloquea-lo. 

A Figura 6.36 ilustra como funcionam as principais chamadas de E/S de arquivo. Esse codigo e mlnimo e 
nao inclui a necessaria verificagao de erro. Antes de entrar no lago, o programa abre um arquivo existente, data , 
e cria um novo arquivo, new/. Cada chamada retorna um descritor de arquivo, infd e outfd, respectivamente. Os 
segundos parametros para as duas chamadas sao bits de protegao que especificam que os arquivos devem ser 
lidos e escritos. Ambas as chamadas retornam um descritor de arquivo. Se open ou creat falharem, e retornado 
um descritor de arquivo negativo, indicando que a chamada falhou. 


Figura 6.36 Fragmento de programa para copiar um arquivo usando chamadas de sistema UNIX. Esse fragmento esta em C porque Java 
oculta as chamadas de sistema de nivel baixo e estamos tentando expo-las. 

/* Abre os descritores de arquivo. 7 

infd = open("data", 0); 

outfd = creatfnewr, ProtectionBits); 

/* Lago de copia. 7 
do { 

count = read(infd, buffer, bytes); 
if (count > 0) write(outfd, buffer, count); 

} while (count > 0); 


/* Fecha os arquivos. 7 

close(infd); 

close(outfd); 
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Figura 6.37 


Parte de um sistema de diretorio tfpico do UNIX. 


Diretorio raiz 



A chamada para read tem tres parametros: um descritor de arquivo, um buffer e um contador de bytes. A 
chamada tenta ler para dentro do buffer o numero desejado de bytes do arquivo indicado. O numero de bytes 
de fa to lido e retornado em count , que sera menor do que bytes se o arquivo foi muito curto. A chamada write 
deposita os bytes recem-lidos no arquivo de salda. O lago continua ate que o arquivo de entrada tenha sido lido 
por completo, quando entao o lago encerra e ambos os arquivos sao fechados. 

Descritores de arquivo em UNIX sao inteiros e de pequeno valor (quase sempre abaixo de 20). Descritores 
de arquivo 0, 1 e 2 sao especiais e correspondem a uma entrada padrao, salda padrao e erro padrao, respecti- 
vamente. Em geral o primeiro se refere ao teclado, o segundo ao monitor e o terceiro tambem ao monitor, mas 
podem ser redirecionados a arquivos pelo usuario. Muitos programas UNIX obtem sua entrada da entrada padrao 
e escrevem a salda processada na salda padrao. Esses programas costumam ser denominados filtros. 
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O sistema de arquivos guarda estreita relagao com o de diretorios. Cada usuario pode ter varios diretorios, 
sendo que cada um contem arquivos, bem como subdiretorios. Sistemas UNIX em geral sao configurados com 
um diretorio principal denominado diretorio raiz, que contem subdiretorios bin (para programas executados 
com frequencia), dev (para os arquivos especiais de dispositivo de E/S), lib (para bibliotecas) e usr (para diretorios 
do usuario), conforme mostra a Figura 6.37. Nesse exemplo, o diretorio usr contem subdiretorios para ast ejim. 
O diretorio ast contem dois arquivos, data efoo.c , e um subdiretorio, bin, que contem quatro games. 

Quando varios discos ou partigoes de disco estao presentes, eles podem ser montados na arvore de nomes, 
de modo que todos os arquivos em todos os discos aparecem na mesma hierarquia de diretorios, todos podendo 
ser alcangados a partir do diretorio raiz. 

Os arquivos podem ser nomeados dando seu caminho a partir do diretorio raiz. Um caminho contem uma 
lista de todos os diretorios percorridos desde a raiz ate o arquivo, sendo que os nomes de diretorios sao separados 
por barras normais. Por exemplo, o nome de caminho absoluto de game2 e /usr/ast/bin/game2. Um caminho que 
comega na raiz e denominado caminho absoluto. 

A todo instante, cada programa em execugao tern um diretorio de trabalho. Nomes de caminhos tambem 
podem ser relativos ao diretorio de trabalho, caso em que nao comegam com uma barra, para distingui-los dos 
nomes de caminhos absolutos. Tais caminhos sao denominados caminhos relativos. Quando /usr/ast e o diretorio 
de trabalho, game. 3 pode ser acessado usando o caminho bint game?). Um usuario pode criar um link (atalho) para o 
arquivo de alguem usando a chamada de sistema link. No exemplo que acabamos de dar, ambos, /usr/ast/bin/game. 3 
e / usr/jim/jotto , acessam o mesmo arquivo. Para evitar ciclos no sistema de diretorios, nao sao permitidos links 
para diretorios. As chamadas open e creat adotam como argumentos nomes de caminhos absolutos ou relativos. 

As principais chamadas de sistema de gerenciamento de diretorio em UNIX estao relacionadas na Figura 
6.38. Mkdir cria um novo diretorio e rmdir apaga um diretorio existente (vazio). As tres chamadas seguintes sao 
usadas para ler entradas de diretorio. A primeira abre o diretorio, a seguinte le entradas dele e a ultima fecha o 
diretorio. Chdir muda o diretorio de trabalho. 


Figura 6.38 Principais chamadas de gerenciamento de diretorio do UNIX. 


Chamada de sistema 

Significado j 

mkdirfname, mode) 

Cria um novo diretorio 

rmdir(name) 

Apaga um diretorio vazio 

opendir(name) 

Abre um diretorio para leitura 

readdir(dirponter) 

Le a proxima entrada em um diretorio 

close dir(dirponter) 

Fecha um diretorio 

chdir(dirname) 

Muda diretorio de trabalho para dirname 

Iink(name1, name2) 

Cria uma entrada de diretorio name2c\ue aponta para namel 

unlink(name) 

Remove name de seu diretorio 


Link cria uma nova entrada de diretorio, sendo que esta aponta para um arquivo existente. Por exemplo, a 
entrada /usr/jim/jotto pode ter sido criada pela chamada 

Iink("/usr/ast/bin/game3", "/usr/jim/jotto") 

ou por uma chamada equivalente que usa nomes de caminho relativos, dependendo do diretorio de trabalho do 
programa que esta fazendo a chamada. Unlink remove a entrada de diretorio. Se o arquivo tiver somente um link , 
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e apagado. Se tiver dois ou mais links, e mantido. Nao importa se um link removido e o original ou uma copia 
feita mais tarde. Uma vez feito um link, ele e um cidadao de primeira classe, indistingulvel do original. A chamada 

unlink("/usr/ast/bin/game3") 

torna game3 acesslvel somente por meio do caminho /usr/jim/jotto dali em diante. Link e unlink podem ser usadas dessa 
maneira para “mover” arquivos de um diretorio para outro. 

Associado com todo arquivo (incluindo diretorios, porque eles tambem sao arquivos) ha um mapa de bits que 
informa quern pode acessar o arquivo. O mapa contem tres campos RWX: o primeiro controla as permissoes ler 
(Read), escrever (Write), executar (eXecute) para o proprietario; o segundo para outros que pertencem ao grupo do 
proprietario e o terceiro para todos os outros. Assim, RWX R-X —X significa que o proprietario pode ler, escrever e 
executar o arquivo (e obvio que e um programa executavel, ou “executar” estaria desligada), ao passo que outros em 
seu grupo podem ler ou executar o arquivo e estranhos so podem executa-lo. Com essas permissoes, estranhos podem 
usar o programa, mas nao podem rouba-lo (copia-lo) porque nao tern permissao de leitura. A designagao de usuarios a 
grupos e feita pelo administrador do sistema, em geral denominado superusuario. Ele tambem tern o poder de anular 
o mecanismo de protegao e ler, escrever e executar qualquer arquivo. 

Agora, vamos estudar de modo sucinto como arquivos e diretorios sao executados em UNIX. Se o leitor quiser 
informagoes mais completas, consulte Vahalia (1996). Associado com cada arquivo (e cada diretorio, porque um dire¬ 
torio tambem e um arquivo) esta um bloco de informagoes de 64 bytes denominado i-node (index node - no de indice). 
O i-node informa quern e o proprietario do arquivo, quais sao as permissoes, onde achar os dados e coisas similares. 
Os i-nodes para os arquivos em cada disco estao localizados ou em sequencia numerica no inlcio do disco ou, se este 
for dividido em grupos de cilindros, no inlcio de um grupo de cilindros. Assim, dado um numero de i-node, o sistema 
UNIX pode localiza-lo apenas calculando seu enderego de disco. 

Uma entrada de diretorio consiste em duas partes: um nome de arquivo e um numero de i-node. Quando um 
programa executa 

open("foo.c", 0) 

o sistema examina o diretorio de trabalho em busca do nome de arquivo, “foo.c”, de modo a localizar o numero de 
i-node para aquele arquivo. Quando achar esse numero, entao ele pode ler o i-node, que informa tudo sobre o arquivo. 

Quando e especificado um nome de caminho mais longo, as etapas basicas delineadas anteriormente sao repetidas 
diversas vezes ate que todo o caminho tenha sido analisado. Por exemplo, para localizar o numero de i-node para lusrl 
ast/data, primeiro o sistema investiga o diretorio raiz em busca de uma entrada usr. Ao achar o i-node para usr, ele pode 
ler aquele arquivo (um diretorio e um arquivo em UNIX). Nesse arquivo, ele procura uma entrada ast, localizando 
entao o numero de i-node para o arquivo lusrlast. Ao ler do lusrl ast, o sistema pode entao achar a entrada para data e, 
assim, o numero de i-node para lusrl ast/data. Dado o numero de i-node para o arquivo, entao ele consegue descobrir 
tudo sobre o arquivo pelo i-node. 

O formato, conteudo e layout de um i-node variam um pouco de sistema para sistema (em especial, quando se esta 
usando rede), mas os seguintes itens sao tlpicos e podem ser encontrados em cada i-node. 

1. O tipo do arquivo, os 9 bits de protegao RWX e alguns outros bits. 

2. O numero de links para o arquivo (o numero de entradas de diretorio para ele). 

3. A identidade do proprietario. 

4. O grupo do proprietario. 

5. O comprimento do arquivo em bytes. 

6. Treze enderegos de disco. 

7. A ultima vez em que o arquivo foi lido. 

8. A ultima vez em que o arquivo foi escrito. 

9. A ultima vez em que o i-node foi alterado. 
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O tipo de arquivo distingue arquivos comuns, diretorios e dois tipos de arquivos especiais, para dispositivos de 
E/S estruturados em blocos e nao estruturados, respectivamente. O numero de links e a identificagao do proprietario ja 
foram discutidos. O comprimento do arquivo e um numero inteiro que da o byte mais alto que tem um valor. Para criar 
um arquivo, e perfeitamente valido fazer um Iseek para posicionar em 1.000.000 e escrever 1 byte, o que resulta em um 
arquivo de comprimento 1.000.001. Todavia, o arquivo nao exigiria armazenamento para todos os bytes que “faltam”. 

Os dez primeiros enderegos de disco apontam para blocos de dados. Com um tamanho de bloco de 1.024 bytes, 
arquivos de ate 10.240 bytes podem ser manipulados dessa maneira. O enderego 11 aponta para um bloco de disco, 
denominado bloco indireto, que contem mais enderegos de disco. Com um bloco de 1.024 bytes e enderegos de disco 
de 32 bits, o bloco indireto teria 256 enderegos de disco. Arquivos ate 10.240 + 256 x 1.024 = 272.384 bytes sao mani¬ 
pulados dessa maneira. Para arquivos ainda maiores, o enderego 12 aponta para um bloco que contem os enderegos de 
256 blocos indiretos, que trata de arquivos de ate 272.384 + 256 x 256 x 1.024 = 67.381.248 bytes. Se esse esquema de 
bloco indireto duplo ainda for muito pequeno, o enderego de disco 13 e usado para apontar para um bloco indireto 
triplo que contem os enderegos de 256 blocos indiretos duplos. Usando os enderegos diretos, unicos, indiretos duplos 
e indiretos triplos, ate 16.843.018 blocos podem ser enderegados, o que da um tamanho de arquivo maximo teorico 
de 17.247.250.432 bytes. Se os enderegos de disco tiverem 64 bits em vez de 32, e os blocos de disco forem de 4 KB, 
entao os arquivos poderao ser muito, mas muito grandes mesmo. Blocos de disco livres sao mantidos em uma lista 
encadeada. Quando e preciso um novo bloco, o proximo e retirado da lista. O resultado e que blocos de cada arquivo 
ficam espalhados por todo o disco. 

Para tornar a E/S de disco mais eficiente, quando um arquivo e aberto, seu i-node e copiado para uma tabela na 
memoria principal e ali e mantido para facilitar a referenda enquanto o arquivo estiver aberto. Ademais, um conjunto 
(pool) de blocos de disco recentemente referenciados e mantido na memoria. Como grande parte dos arquivos e lida 
em sequencia, muitas vezes acontece de uma referenda a um arquivo precisar do mesmo bloco de disco que a anterior. 
Para fortalecer esse efeito, o sistema tambem tenta ler o proximo bloco em um arquivo, antes de ele ser referenciado, de 
modo a acelerar o processamento. Toda essa otimizagao permanece oculta para o usuario; quando um usuario emite 
uma chamada read, o programa e suspenso ate que os dados requisitados estejam disponlveis no buffer. 

Com essa informagao basica, agora podemos ver como funciona a E/S de arquivo. Open faz o sistema pesquisar os 
diretorios em busca do caminho especificado. Se a pesquisa for bem-sucedida, o i-node e lido para uma tabela interna. 
Reads e writes exigem que o sistema calcule o numero de bloco a partir da posigao corrente do arquivo. Os endere¬ 
gos de disco dos dez primeiros blocos sempre estao na memoria principal (no i-node); blocos de numeros mais altos 
exigem que um ou mais blocos indiretos sejam lidos antes. Lseek so muda o ponteiro de posigao corrente sem fazer 
nenhuma E/S. 

Agora tambem ficou simples entender link e unlink. Link consulta seu primeiro argumento para achar o numero 
de i-node. Entao, cria uma entrada de diretorio para o segundo argumento, colocando o numero de i-node do primeiro 
arquivo naquela entrada. Por fim, ela incrementa em um a contagem de links no i-node. Unlink remove uma entrada de 
diretorio e decrementa a contagem de links no i-node. Se a contagem for zero, o arquivo e removido e todos os blocos 
sao devolvidos a lista de livres. 

• E/S no Windows 7 

O Windows 7 suporta varios sistemas de arquivos, e os mais importantes deles sao o NTFS (NT File System 
- sistema de arquivos do NT) e o FAT (File Allocation Table - tabela de alocagao de arquivos). O primeiro e 
um novo sistema de arquivos desenvolvido para o NT; o ultimo e o velho sistema de arquivos do MS-DOS, que 
tambem foi usado nos Windows 95/98 (porem, com suporte para nomes de arquivo mais longos). Dado que o 
sistema de arquivos FAT e obsoleto (exceto para pendrives e cartoes de memoria SD, por exemplo), passaremos 
a estudar o NTFS. 

Os nomes de arquivos no NTFS podem ter ate 255 caracteres de comprimento e estao em Unicode, e isso permite 
a quern vive em palses que nao usam o alfabeto latino (por exemplo, Japao, India e Israel) escrever nomes de arquivos 
em seu idioma nativo. (Na verdade, internamente, o Windows 7 usa Unicode por toda a parte; versoes a partir do 
Windows 2000 tem um unico codigo binario que, alem de poder ser usado em qualquer pals, emprega o idioma local, 
porque todos os menus, mensagens de erro etc. sao mantidos em arquivos de configuragao que dependem do pals.) 
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O NTFS da total suporte a nomes que sao diferentes se escritos em maiusculas ou minusculas (portanto, algo e dife- 
rente de ALGO). A API Win32 nao da total suporte a nomes de arquivos que sao diferentes se escritos em minusculas 
ou maiusculas e, no caso de nomes de diretorio, essa vantagem se perde em programas que usam Win32. 

Como no UNIX, um arquivo e apenas uma sequencia linear de bytes, embora ate um maximo de 2 64 - 1 bytes. 
Tambem como no UNIX, ha ponteiros de arquivos, mas sua largura e 64 bits, e nao 32 bits, para tratar dos arqui¬ 
vos com comprimento maximo. As chamadas de fungao da API Win32 para manipulagao de arquivos e diretorios 
sao semelhantes as suas correspondentes no UNIX, exceto que a maioria tern mais parametros e o modelo de 
seguranga e diferente. Abrir um arquivo retorna um manipulador (handle), que entao e usado para ler e escrever 
o arquivo. Contudo, diferente do UNIX, os manipuladores nao sao inteiros de baixo valor, pois sao usados para 
identificar todos os objetos do nucleo, dos quais existem potencialmente milhoes. As principais fungoes da API 
Win32 para gerenciamento de arquivos aparecem na Figura 6.39. 


Figura 6.39 Principais funcoes da API Win32 para E/S de arquivo. A segunda coluna da a equivalente mais proximo no UNIX. 


| Fungao da API 

UNIX 

Significado I 

CreateFile 

open 

Cria um arquivo ou abre um arquivo existente; retorna um manipulador 

DeleteFile 

unlink 

Exclui uma entrada de arquivos existentes de um diretorio 

CloseHandle 

close 

Fecha um arquivo 

ReadFile 

read 

Le dados de um arquivo 

WriteFile 

write 

Escreve dados em um arquivo 

SetFilePointer 

Iseek 

Ajusta o ponteiro de arquivo para um local especffico no arquivo 

GetFileAttributes 

stat 

Retorna as propriedades do arquivo 

LockFile 

fcntl 

Bloqueia uma regiao do arquivo para proporcionar exclusao mutua 

UnlockFile 

fcntl 

Desbloqueia uma regiao do arquivo previamente bloqueada 


Agora, vamos examinar de modo breve essas chamadas. CreateFile pode ser usada para criar um novo arqui¬ 
vo e retornar um manipulador para ele. Essa fungao da API tambem e usada para abrir arquivos existentes, porque 
nao ha nenhuma fungao open na API. A lista nao apresenta os parametros para as fungoes da API do Windows 7 
porque eles sao muito numerosos. Por exemplo, CreateFile tern sete parametros, a saber: 

1. Um ponteiro para o nome do arquivo a criar ou abrir. 

2. Sinalizadores (flags) que informam se o arquivo pode ser lido, escrito ou ambos. 

3. Sinalizadores (flags) que informam se varios processos podem abrir o arquivo ao mesmo tempo. 

4. Um ponteiro para o descritor de seguranga, que informa quern pode acessar o arquivo. 

5. Sinalizadores (flags) que informam o que fazer se o arquivo existir/nao existir. 

6. Sinalizadores (flags) que lidam com atributos como arquivamento, compressao etc. 

7. O manipulador (handle) de um arquivo cujos atributos devem ser clonados para o novo arquivo. 

As proximas seis fungoes da API na Figura 6.39 sao bastante similares as chamadas de sistema correspondentes 
no UNIX. Porem, note que, em princlpio, a E/S no Windows 7 e asslncrona, embora seja posslvel que um processo 
espere o termino das E/S. As duas ultimas fungoes admitem que uma regiao de um arquivo seja bloqueada e 
desbloqueada para permitir que um processo obtenha exclusao mutua garantida a ele. 
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Usando essas dingoes da API e posslvel escrever um procedimento para copiar um arquivo, analogo a ver- 
sao UNIX da Figura 6.36. Tal procedimento (sem nenhuma verificagao de erro) e mostrado na Figura 6.40. Foi 
projetado para imitar a estrutura da Figura 6.36. Na pratica, nao terlamos de programar uma fungao para copia 
de arquivo, uma vez que CopyFile e uma fungao da API (que executa algo parecido com esse programa, como um 
procedimento de biblioteca). 


Figura 6.40 Fragmento de programa para copiar um arquivo usando as funcoes da API do Windows 7. 0 fragmento esta em C porque 
Java oculta as chamadas de sistema de nivel baixo e nos estamos tentando expo-las. 

/* Abra arquivos para entrada e safda. 7 

inhandle = CreateFilefdata", GENERIC_READ, 0, NULL, OPEN_EXISTING, 0, NULL); 
outhandle = CreateFilefnewr, GENERIC_WRITE, 0, NULL, CREATE ALWAYS, 
FILE_ATTRIBUTE_NORMAL, NULL); 

/* Copie o arquivo. 7 
do { 

s = ReadFile(inhandle, buffer, BUF_SIZE, &count, NULL); 

if (s > 0 && count > 0) WriteFile(outhandle, buffer, count, &ocnt, NULL); 

} while (s > 0 && count > 0); 

/* Feche os arquivos. 7 
CloseFlandle(inhandle); 

CloseFlandle(outhandle); 


O Windows 7 suporta um sistema hierarquico de arquivos, semelhante ao sistema de arquivos do UNIX. 
Todavia, o separador de nomes de componentes e \ em vez de /, um fossil herdado do MS-DOS. Ha um conceito 
de um diretorio de trabalho corrente, e os nomes de caminhos podem ser relativos ou absolutos. Uma diferenga 
significativa, entretanto, e que o UNIX permite que os sistemas de arquivos em discos e maquinas diferentes sejam 
montados juntos em uma unica arvore de nomeagao em uma raiz unica, ocultando assim a estrutura de disco de 
todo o software. As versoes mais antigas do Windows (antes do Windows 2000) nao tinham essa propriedade, 
portanto, nomes absolutos de arquivo devem comegar com uma letra de drive que indique qual e o disco logico 
pretendido, como em C:\windows\system\algo.dll. A partir do Windows 2000 foi acrescentado o estilo UNIX de 
montagem de sistemas de arquivo. 

As principais fungoes da API de gerenciamento de diretorio sao dadas na Figura 6.41, mais uma vez acom- 
panhadas de suas equivalentes mais proximas em UNIX. Esperamos que as fungoes sejam autoexplicativas. 

O Windows 7 tern um mecanismo de seguranga muito mais elaborado do que a maioria dos sistemas UNIX. 
Embora haja centenas de fungoes da API relativas a seguranga, a breve descrigao que faremos a seguir da a ideia 
geral. Quando um usuario faz login, seu processo inicial recebe uma ficha de acesso dada pelo sistema opera¬ 
cional. A ficha de acesso contem o SID (Security ID) do usuario, uma lista de grupos de seguranga aos quais ele 
pertence, quaisquer privileges especiais disponlveis e alguns outros itens. A razao da ficha de acesso e concentrar 
todas as informagoes de seguranga em um lugar facil de achar. Todos os processos criados por esses processos 
herdam a mesma permissao de acesso. 

Um dos parametros que podem ser fornecidos quando qualquer objeto e criado e seu descritor de seguranga. 
O descritor de seguranga contem uma lista de entradas denominada ACL (Access Control List - lista de controle 
de acesso). Cada entrada permite ou prolbe, a algum SID ou grupo, a realizagao de algum conjunto de operagoes 
sobre o objeto. Por exemplo, um arquivo poderia ter um descritor de seguranga especificando que Leonora nao 
tern nenhum acesso a ele, Ricardo pode ler o arquivo e Linda pode ler ou escrever, e todos os membros do grupo 
XYZ podem ler o comprimento do arquivo e nada mais. Padroes tambem podem ser estabelecidos para negar 
acesso a qualquer um que nao esteja relacionado explicitamente. 
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Figura 6.41 Principals funcoes da API Win32 para gerenciamento de diretorio. A segunda coluna mostra a equivalente mais proximo no 
UNIX, quando ela existe. 


I Fungao da API 

UNIX 

Significado 1 

CreateDirectory 

mkdir 

Cria um novo diretorio 

RemoveDirectory 

rmdir 

Remove um diretorio vazio 

FindFirstFile 

opendir 

Inicializa e comega a ler as entradas em um diretorio 

FindNextFile 

readdir 

Le a proxima entrada de diretorio 

MoveFile 


Move um arquivo de um diretorio para outro 

SetCurrentDirectory 

chdir 

Muda o diretorio de trabalho corrente 


Quando um processo tenta realizar alguma operagao sobre um objeto usando um manipulador, o gerenciador de 
seguranga pega a ficha de acesso do processo e primeiro compara o nlvel de integridade no descritor de seguranga 
do objeto com o da ficha. Um processo nao pode obter um manipulador com permissao de escrita para qualquer 
objeto com um nlvel de integridade mais alto. Os nlveis de integridade sao usados principalmente para restringir o 
que o codigo carregado pelos navegadores Web podem fazer para modificar o sistema. Apos a verificagao do nlvel 
de integridade, o gerenciador de seguranga percorre a lista de entradas na ACL pela ordem. Logo que encontrar uma 
entrada que combine com a SID do chamado ou com um dos grupos do chamado, o privilegio de acesso ali encon- 
trado e considerado definitivo. Por essa razao, e comum colocar entradas que negam acesso antes de entradas que 
permitem acesso na ACL, de modo que o usuario a quern o acesso foi negado nao possa entrar por meios escusos 
por ser membro de um grupo que tern acesso legltimo. O descritor de seguranga tambem contem informagoes usadas 
para auditoria dos acessos ao objeto. 

Agora, vamos dar uma rapida olhada no modo de implementagao de arquivos e diretorios no Windows 7. Cada 
disco e dividido estaticamente em volumes independentes, equivalentes as partigoes de disco em UNIX. Cada 
volume contem mapas de bits, arquivos, diretorios e outras estruturas de dados para gerenciar suas informagoes. 
Cada volume e organizado como uma sequencia linear de clusters (agrupamentos); o tamanho do cluster e fixo para 
cada volume e esta na faixa de 512 bytes a 64 KB, dependendo do tamanho do volume. Clusters sao referenciados por 
seu deslocamento em relagao ao inlcio do volume utilizando numeros de 64 bits. 

A principal estrutura de dados do volume e a MFT (Master File Table - tabela mestra de arquivos), que tern 
uma entrada para cada arquivo e diretorio no volume. Essas entradas sao semelhantes aos i-nodes em UNIX. A MFT 
e, em si, um arquivo e, como tal, pode ser colocada em qualquer lugar do volume. Essa propriedade e util no caso de 
haver blocos de disco defeituosos no inlcio do volume, onde a MFT seria de costume armazenada. Sistemas UNIX em 
geral armazenam certas informagoes-chave no inlcio de cada volume e, no caso (extremamente improvavel) de um 
desses blocos ser danificado de modo irreparavel, o volume inteiro precise ser reposicionado. 

A MFT e mostrada na Figura 6.42. Ela comega com um cabegalho que contem informagoes sobre o volume tais 
como (ponteiros para) o diretorio raiz, o arquivo de inicializagao, o arquivo de blocos defeituosos, administragao da 
lista de livres etc. Depois disso vem uma entrada por arquivo ou diretorio de 1 KB, exceto quando o tamanho 
do cluster for 2 KB ou mais. Cada entrada contem todos os metadados (informagoes administrativas) sobre o arquivo 
ou diretorio. Sao permitidos varios formatos, um dos quais e mostrado na Figura 6.42. 

O campo padrao de informagoes contem informagoes como marcas de tempo necessarias pelo POSIX, a conta- 
gem de ligagoes estritas (hard links), os bits de somente leitura e arquivamento etc. E um campo de comprimento fixo 
e esta sempre presente. O comprimento do nome de arquivo e variavel ate 255 caracteres Unicode. Para que sejam 
acesslveis a antigos programas de 16 bits, esses arquivos tambem podem ter um nome MS-DOS, composto de oito 
caracteres alfanumericos seguidos opcionalmente por um ponto e uma extensao de ate tres caracteres alfanumericos. 
Se o nome de arquivo obedecer a regra de nomeagao 8+3 do MS-DOS, nao e usado um nome MS-DOS secundario. 
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Figura 6.42 


Tabela mestra de arquivos do Windows 7. 



1 ? 











Cabegalho 
da MFT 


Tabela 
mestra 
de arquivos 


Informagoes Nome Nome 

padrao de arquivo MS-DOS Seguranga Dados 



Y 

Entrada da MFT para urn arquivo 


Em seguida, vem as informagoes de seguranga. Em versoes ate o Windows NT 4.0, inclusive, o campo de 
seguranga continha o descritor de seguranga propriamente dito. A partir do Windows 2000, todas as informagoes 
de seguranga foram centralizadas em um unico arquivo, sendo que o campo de seguranga simplesmente aponta 
para a parte relevante desse arquivo. 

No caso de arquivos pequenos, os dados do arquivo estao contidos na entrada MFT, o que poupa um aces- 
so a disco para busca-la. Essa ideia e denominada arquivo imediato (Mullender e Tanenbaum, 1984). No caso 
de arquivos um pouco maiores, esse campo contem ponteiros para os clusters que contem os dados ou, o que e 
mais comum, carreiras de clusters consecutivos, de modo que um unico numero de cluster e um comprimento 
podem representar uma quantidade qualquer de dados do arquivo. Se uma unica entrada MFT nao for grande o 
suficiente para conter quaisquer que sejam as informagoes que ela deva conter, uma ou mais entradas adicionais 
podem ser encadeadas com ela. 

O tamanho maximo de arquivo e 2 64 bytes (isto e, 2 67 bits). Para ter uma ideia desse tamanho, imagine que 
o arquivo tenha sido escrito em sistema binario e cada 0 ou 1 ocupe 1 mm de espago. A lista de 2 67 mm teria 15 
anos-luz de comprimento e se estenderia ate muito alem do sistema solar, ida e volta ate Alfa Centauro. 

O sistema de arquivos NTFS tern muitas outras propriedades interessantes, incluindo compressao de dados 
e tolerancia a falhas usando transagoes atomicas. Informagoes adicionais sobre ele podem ser encontradas em 
Russinovich e Solomon, 2005. 

6.5.4 Exemplos de gerenciamento de processo 

Tan to UNIX quanto Windows 7 permitem que uma tarefa seja subdividida em varios processos que podem 
executar em (pseudo)paralelismo e se comunicar entre si, no estilo do exemplo de produtor-consumidor que ja 
discutimos. Nesta segao, discorreremos sobre como processos sao gerenciados em ambos os sistemas. Os dois 
suportam paralelismo dentro de um unico processo usando threads, portanto, isso tambem sera abordado. 

• Gerenciamento de processo em UNIX 

Em qualquer instante, um processo UNIX pode criar um subprocesso que e uma replica exata de si mesmo 
executando a chamada de sistema fork. O processo original e denominado pai e o novo processo e denominado 
filho. Logo apos a chamada fork, os dois processos sao identicos e ate compartilham os mesmos descritores de 
arquivo. Dali em diante, cada um segue seu proprio caminho e faz o que quiser, independentemente do outro. 
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Em muitos casos, o processo filho realiza certas manipulates com os descritores de arquivo e entao execu- 
ta a chamada de sistema exec, que substitui seu programa e dados pelo programa e dados encontrados em um 
arquivo executavel especificado como parametro para a chamada exec. Por exemplo, quando um usuario digita 
um comando xyz em um terminal, o interpretador de comandos (shell) executa fork para criar um processo-filho. 
Esse processo-filho entao executa exec para rodar o programa xyz. 

Os dois processos correm em paralelo (com ou sem exec), a menos que o pai deseje esperar que o filho ter- 
mine antes de continuar. Se o pai quiser esperar, ele executa a chamada de sistema wait ou waitpid, que o faz ficar 
suspenso ate que o filho termine, executando exit. Apos o filho encerrar, o pai continua. 

Processos podem executar fork quantas vezes quiserem, dando origem a uma arvore de processos. Na Figura 
6.43, por exemplo, o processo A executou fork duas vezes, criando dois filhos, B e C. Entao, B tambem executou 
fork duas vezes e C a executou uma so vez, resultando na arvore final de seis processos. 


Figura 6.43 


Arvore de processos em UNIX. 



Processo original 


Filhos de A 


Netos de A 


Processos em UNIX podem se comunicar um com o outro por meio de uma estrutura denominada pipe 
(conexao ou tubulagao). Um pipe e um tipo de buffer no qual um processo pode escrever um fluxo de dados e 
um outro pode retira-lo. Bytes sao sempre retirados de um pipe na ordem em que foram escritos. Acesso aleatorio 
nao e posslvel. Pipes nao preservam fronteiras de mensagem; portanto, se um processo fizer quatro escritas de 
128 bytes e o outro fizer uma leitura de 512 bytes, o leitor obtera todos os dados ao mesmo tempo, sem nenhuma 
indicagao de que foram escritos em varias operagoes. 

Em System V e Linux, outro modo de comunicagao entre processos e a utilizagao de filas de mensagens. 
Um processo pode criar uma nova fila de mensagens ou abrir uma fila existente usando msgget. Com uma fila 
de mensagens, o processo envia mensagens usando msgsnd e as recebe usando msgrecv. Ha muitas diferengas 
entre mensagens enviadas dessa maneira e dados amontoados em um pipe. Primeiro, fronteiras de mensagens sao 
preservadas, ao passo que um pipe e apenas um fluxo de bytes. Segundo, mensagens tern prioridades, portanto, 
as mais urgentes podem passar a frente das menos importantes. Terceiro, ha tipos de mensagens e, se desejado, 
uma msgrecv pode especificar um tipo particular. 

Outro mecanismo de comunicagao e a capacidade de dois ou mais processos compartilharem uma regiao 
de seus respectivos espagos de enderego. O UNIX manipula essa memoria compartilhada mapeando as mesmas 
paginas para o espago de enderego virtual de todos os processos compartilhantes. O resultado e que uma escrita 
realizada por um processo em uma regiao compartilhada e imediatamente vislvel para os outros processos. Esse 
mecanismo proporciona um caminho de comunicagao entre processos de largura de banda muito aha. As chama- 
das de sistema envolvidas na memoria compartilhada atendem por nomes como shmat e shmop. 

Outro aspecto do System V e do Linux e a disponibilidade de semaforos que, basicamente, funcionam como 
descrito no exemplo de produtor-consumidor dado neste texto. 

Mais uma facilidade proporcionada por todos os sistemas UNIX e a capacidade de ter multiplos threads de 
controle em um unico processo. Estes, em geral denominados apenas threads , sao como processos leves que 
compartilham um espago de enderego comum e tudo o que esta associado com ele, como descritores de arquivo, 
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variaveis de ambiente e temporizadores importantes. Contudo, cada thread tem seu proprio contador de programa, 
seus proprios registradores e sua propria pilha. Quando um thread bloqueia (isto e, tem de parar por certo tempo 
ate a E/S concluir ou algum outro evento acontecer), outros no mesmo processo continuam aptos a executar. Dois 
threads no mesmo processo, que operam como produtor e consumidor, sao semelhantes, mas nao identicos, a dois 
processos, cada um com um unico thread, que estao compartilhando um segmento de memoria que contem um 
buffer. As diferengas tem a ver com o fa to de que, no ultimo caso, cada processo tem seus proprios descritores de 
arquivo etc., ao passo que, no primeiro, todos esses itens sao compartilhados. Vimos a utilizagao de threads Java 
no exemplo produtor-consumidor que demos antes. Muitas vezes, o sistema de execugao Java usa um thread do 
sistema operacional para cada um de seus threads , mas nao precisa fazer isso. 

Como exemplo de onde os threads poderiam ser uteis, considere um servidor da World Wide Web. Esse 
servidor poderia manter, na memoria principal, uma cache de paginas Web comumente utilizadas. Se chegar uma 
requisigao para uma pagina Web que esta na cache , ela e entregue de imediato. Caso contrario, sera buscada no 
disco. Infelizmente, esperar pelo disco toma muito tempo (em geral 20 ms), durante o qual o processo e bloquea- 
do e nao pode atender a novas requisigoes que chegam, mesmo as que sao para paginas Web que estao na cache. 

A solugao e ter varios threads no processo servidor e todos eles compartilharem a mesma cache de pagi¬ 
nas Web. Quando um thread bloquear, outros poderao manipular novas requisigoes. Para evitar bloqueios sem 
threads, poderlamos ter varios processos servidores, mas isso provavelmente acarretaria duplicar a cache , o que 
desperdigaria memoria valiosa. 

O padrao UNIX para threads e denominado pthreads e e definido por POSIX (P1003.1C). Contem chamadas 
para gerenciar e sincronizar threads, mas nao define se estes sao gerenciados pelo nucleo ou inteiramente em 
espago do usuario. As chamadas de thread mais usadas estao relacionadas na Figura 6.44. 


Figura 6.44 Principais chamadas de thread POSIX. 


Chamada de thread 

Significado j 

pthread_create 

Cria um novo thread no espago de enderego do chamado 

pthread_exit 

Encerra o thread que esta chamando 

pthreadjoin 

Espera que um thread encerre 

pthreadjnutexjnit 

Cria um novo mutex 

pth read _m utex_destroy 

Destroi um mutex 

pth read _m utex Jock 

Bloqueia um mutex 

pth read_m utex_u n lock 

Desbloqueia um mutex 

pthread_condJnit 

Cria uma variavel de condigao 

pthread_cond_destroy 

Destroi uma variavel de condigao 

pthread_cond_wait 

Espera em uma variavel de condigao 

pthread_cond_signal 

Libera um thread que esta esperando em uma variavel de condigao 


Vamos fazer um breve exame das chamadas de thread mostradas na Figura 6.44. A primeira chamada, 
pthread_create, cria um novo thread. Apos a conclusao bem-sucedida, ha mais um thread executando no espago 
de enderego do chamador do que antes da chamada. Um thread que ja realizou seu trabalho e quer encerrar 
chama pthread_exit. Um thread pode esperar que outro saia, chamando pthreadjoin. Se o thread esperado ja saiu, 
a pthreadjoin encerra imediatamente. Caso contrario, ela bloqueia. 
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Threads podem sincronizar usando mutexes. Um mutex protege algum recurso, como um buffer comparti- 
lhado por dois threads. Para garantir que so um thread por vez acesse o recurso compartilhado, threads devem 
travar o mutex antes de usar o recurso e destrava-lo quando conclulrem seu trabalho. Contanto que todos os 
threads obedegam a esse protocolo, podem-se evitar condigoes de disputa. Mutexes sao como semaforos binarios 
(semaforos que podem assumir somente os valores de 0 e 1). O nome “mutex” se deve ao fato de que mutexes sao 
utilizados para garantir exclusao mutua (mutual exclusion) em algum recurso. 

Mutexes podem ser criados e destruldos pelas chamadas pthread_mutex_init e pthread_mutex_destroy, respec- 
tivamente. Um mutex pode estar em um de dois estados: travado ou destravado. Quando um thread precisa travar 
um mutex destravado (usando pthread_mutex_lock), a trava e ajustada e o thread continua. Contudo, quando um 
thread tenta travar um mutex que ja esta travado, ele bloqueia. Quando o thread que colocou a trava antes tiver 
concluldo a utilizagao do recurso, deve destravar o mutex correspondente chamando pthread_mutex_unlock. 

A finalidade dos mutexes e travar por curto prazo, como para proteger uma variavel compartilhada. Nao sao 
cogitados para sincronizagao de longo prazo, tal como esperar que uma unidade de fita fique livre. Para sincroni- 
zagao de longo prazo sao fornecidas variaveis de condigao. Essas variaveis sao criadas e destruldas por chamadas 
a pthread_cond_init e pthread_cond_destroy, respectivamente. 

Uma variavel de condigao e usada fazendo com que um thread espere nela e um outro a sinalize. Por exem- 
plo, ao descobrir que a unidade de fita de que necessita esta ocupada, o thread faria pthread_cond_wait em uma 
variavel de condigao que todos os threads concordaram em associar com a unidade de fita. Quando o thread que 
esta usando a unidade de fita por fim concluir seu trabalho (talvez horas mais tarde) ele usa pthread_cond_signal 
para liberar exatamente um thread que esta esperando naquela variavel de condigao (se houver algum esperan- 
do). Se nenhum thread estiver esperando, o sinal e perdido. Variaveis de condigao nao contam como semaforos. 
Algumas outras operagoes tambem sao definidas por threads, mutexes e variaveis de condigao. 

• Gerenciamento de processo no Windows 7 

O Windows 7 suporta multiplos processos, que podem se comunicar e sincronizar. Cada processo contem no 
mlnimo um thread. Juntos, processos e threads (que podem ser escalonados pelo proprio processo) proporcionam 
um conjunto geral de ferramentas para gerenciar paralelismo em uniprocessadores (maquinas com uma unica 
CPU), bem como em multiprocessadores (maquinas com varias CPUs). 

Novos processos sao criados usando a fungao da API CreateProcess. Essa fungao tern dez parametros, cada 
qual com muitas opgoes. Esse projeto e decerto muito mais complicado do que o esquema UNIX, no qual fork nao 
tern parametros e exec tern apenas tres: ponteiros para o nome do arquivo a executar, o vetor de parametros de 
linhas de comando (analisadas) e as cadeias de ambiente. Em termos gerais, os dez parametros de CreateProcess 
sao os seguintes: 

1. Um ponteiro para o nome do arquivo executavel. 

2. A linha de comando em si (nao analisada). 

3. Um ponteiro para um descritor de seguranga para o processo. 

4. Um ponteiro para um descritor de seguranga para o thread inicial. 

5. Um bit que indica se o novo processo herda os manipuladores do criador. 

6. Sinalizadores diversos (por exemplo, modo erro, prioridade, depuragao, consoles). 

7. Um ponteiro para as cadeias de ambiente. 

8. Um ponteiro para o nome do diretorio de trabalho corrente do novo processo. 

9. Um ponteiro para uma estrutura que descreve a janela inicial na tela. 

10. Um ponteiro para uma estrutura que retorna 18 valores para o chamado. 
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O Windows 7 nao impoe nenhum tipo de hierarquia pai-filho nem qualquer outra hierarquia. Todos os pro- 
cessos sao criados de modo igual. Contudo, visto que 1 dos 18 parametros retornados para o processo criador e 
um manipulador para o novo processo (o que permite consideravel controle sobre o novo processo), ha uma hie¬ 
rarquia implicita em termos de quern tern um manipulador para quern. Embora esses manipuladores nao possam 
ser passados diretamente para outros processos, ha um modo de um processo tornar uma manipulador adequado 
para outro e entao dar-lhe o manipulador, portanto, a hierarquia de processo implicita pode nao durar muito. 

Cada processo no Windows 7 e criado com um unico thread , mas um processo pode criar mais threads mais 
tarde. Criar um thread e mais simples do que criar um processo: CreateThread tern apenas seis parametros, em vez 
de dez: o descritor de seguranga, o tamanho da pilha, enderego de inlcio, um parametro definido pelo usuario, o 
estado inicial do thread (pronto ou bloqueado) e a ID do thread. O nucleo e que cria o thread , portanto, ele esta 
claramente ciente dos threads (isto e, eles nao sao implementados apenas no espago do usuario, como e o caso 
em alguns outros sistemas). 

Quando o nucleo faz o escalonamento, ele examina apenas os threads executaveis e nao presta atengao algu- 
ma ao processo em que cada um se encontra. Isso significa que o nucleo esta sempre ciente de quais threads estao 
prontos e quais estao bloqueados. Como sao objetos de nucleo, eles tern descritores de seguranga e manipulado¬ 
res. Visto que um manipulador para um thread pode ser passado para outro processo, e posslvel fazer um processo 
controlar (ou mesmo criar) threads em um processo diferente. Esse recurso e util para depuradores, por exemplo. 

Ha uma grande variedade de modos de comunicagao posslveis entre processos, incluindo pipes, pipes 
nomeados ( named pipes), soquetes (sockets), chamadas remotas de procedimento (RPCs - Remote Procedure 
Calls) e arquivos compartilhados. Pipes tern dois modos: byte e mensagem, selecionados na hora da criagao. Pipes 
de modo byte funcionam do mesmo modo que em UNIX. Pipes de modo mensagem sao um pouco parecidos, mas 
preservam fronteiras de mensagens, de modo que quatro escritas de 128 bytes serao lidas como quatro mensagens 
de 128 bytes, e nao como uma de 512 bytes, como aconteceria em pipes de modo byte. Tambem existem pipes 
nomeados, que tern os mesmos dois modos dos normais. Pipes nomeados podem ser usados em uma rede; 
pipes normais, nao. 

Soquetes sao como pipes, exceto que em geral conectam processos em maquinas diferentes. Todavia, tambem 
podem ser usados para conectar processos na mesma maquina. Em geral, nao ha muita vantagem em utilizar uma 
conexao por soquete em vez de um pipe ou pipe nomeado para comunicagao interna a maquina. 

Chamadas remotas de procedimento sao um modo de o processo A fazer o processo B chamar um proce¬ 
dimento no espago de enderego de B em favor de A e retornar o resultado para A. Ha varias restrigoes aos para¬ 
metros. Por exemplo, nao faz sentido passar um ponteiro para um processo diferente. Em vez disso, os objetos 
apontados precisam ser reunidos e enviados ao processo de destino. 

Por fim, processos podem compartilhar memoria mapeando para o mesmo arquivo ao mesmo tempo. Entao, 
todas as escritas feitas por um processo aparecem no espago de enderego dos outros processos. Com esse meca- 
nismo, o buffer compartilhado usado em nosso exemplo produtor-consumidor pode ser executado com facilidade. 

Assim como o Windows 7 fornece varios mecanismos de comunicagao entre processos, ele tambem oferece 
diversos mecanismos de sincronizagao, incluindo semaforos, mutexes, segoes crlticas e eventos. Todos esses meca¬ 
nismos funcionam em threads, e nao em processos, de modo que, quando um thread bloqueia em um semaforo, 
outros naquele processo (se houver algum) nao sao afetados e continuam a executar. 

Um semaforo e criado usando a fungao da API CreateSemaphore, que pode inicializa-lo para um dado valor 
e tambem definir um valor maximo. Semaforos sao objetos de nucleo e, por isso, tern descritores de seguranga e 
manipuladores. O manipulador para um semaforo pode ser duplicado usando DuplicateHandle e passado para 
um outro processo, de modo que varios processos podem sincronizar no mesmo semaforo. Tambem estao pre- 
sentes chamadas para up e down, embora tenham os nomes um tanto peculiares de ReleaseSemaphore (up) e 
WaitForSingleObject (down). Tambem e posslvel dar um temporizador para WaitForSingleObject, de modo que 
o thread chamador seja liberado a uma certa altura, ainda que o semaforo permanega em 0 (embora tempori- 
zadores reintroduzam disputas). 

Mutexes tambem sao objetos de nucleo usados para sincronizagao, porem, mais simples do que semaforos 
porque nao tern contadores. Sao, em essencia, travas, com fungoes da API para travar (WaitForSingleObject) e 
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destravar (ReleaseMutex). Assim como os de semaforo, manipuladores de mutex tambem podem ser duplicados e 
passados entre processos, de modo que threads em diferentes processos podem acessar o mesmo mutex. 

O terceiro mecanismo de sincronizagao e baseado em segoes crlticas, que sao semelhantes a mutexes, porem 
locais no espago de enderego do thread criador. Como nao sao objetos de nucleo, as segoes crlticas nao tern 
manipuladores nem descritores de seguranga e nao podem ser passadas entre processos. Travamento e destrava- 
mento sao realizados com EnterCriticalSection e LeaveCriticalSection, respectivamente. Como essas fungoes da API 
sao executadas inteiramente em espago usuario, sao muito mais rapidas do que mutexes. O Windows 7 tambem 
oferece variaveis de condigao, travas leves de leitor/escritor, operagoes sem trava e outros mecanismos de sincro¬ 
nizagao que so funcionam entre os threads de um unico processo. 

O ultimo mecanismo de sincronizagao usa objetos de nucleo denominados eventos. Um thread pode esperar 
que um evento ocorra com WaitForSingleObject. Um thread pode liberar um unico thread que esta esperando por 
um evento com SetEvent ou pode liberar todos os threads que estao esperando por um evento com PulseEvent. 
Eventos possuem diversos tipos e tambem tern uma variedade de opgoes. O Windows usa eventos para sincroni- 
zar no termino da E/S asslncrona e tambem para outras finalidades. 

Eventos, mutexes e semaforos podem ser nomeados e armazenados no sistema de arquivos, assim como pipes 
nomeados. Dois ou mais processos podem sincronizar abrindo o mesmo evento, mutex ou semaforo, em vez de 
fazer um deles criar o objeto e entao duplicar manipuladores para os outros, embora, sem duvida, essa ultima 
tecnica tambem seja uma opgao. 


6.6 Resumo 

O sistema operacional pode ser considerado um interprete para certas caracterlsticas de arquitetura nao 
encontradas no nlvel ISA. Entre as principais estao memoria virtual, instrugoes de E/S virtual e facilidades de 
processamento paralelo. 

Memoria virtual e uma caracterlstica de arquitetura cuja finalidade e permitir que programas usem espago 
de enderego maior do que a memoria flsica da maquina, ou proporcionar um mecanismo consistente e flexlvel 
para protegao e compartilhamento de memoria. Ela pode ser implementada como paginagao pura, segmentagao pura 
ou uma combinagao das duas. Na paginagao pura, o espago de enderego e desmembrado em paginas virtuais de 
tamanhos iguais. Algumas delas sao mapeadas para quadros de pagina flsicos. Outras nao sao mapeadas. Uma refe¬ 
rence a uma pagina mapeada e traduzida pela MMU para o enderego flsico correto. Uma reference a uma pagina nao 
mapeada causa uma falta de pagina. Ambos, o Core i7 e a CPU ARM do OMAP4430, tern MMUs que suportam 
memoria virtual e paginagao. 

A mais importante abstragao de E/S presente nesse nlvel e a de arquivo. Um arquivo consiste em uma 
sequence de bytes ou registros logicos que podem ser lidos e escritos sem saber como discos, fitas e outros 
dispositivos de E/S funcionam. Arquivos podem ser acessados em sequence, aleatoriamente por numero de 
registro, ou aleatoriamente por chave. Diretorios podem ser usados para agrupar arquivos. Arquivos podem ser 
armazenados em setores consecutivos ou espalhados pelo disco. No ultimo caso, normal em discos rlgidos, sao 
necessarias estruturas de dados para localizar todos os blocos de um arquivo. O armazenamento livre em discos 
pode ser monitorado usando uma lista ou um mapa de bits. 

Processamento paralelo geralmente e suportado e e implementado simulando multiplos processadores que 
compartilham tempo em uma unica CPU. Interagao nao controlada entre processos pode levar a condigoes de 
disputa. Para resolver esse problema, sao introduzidas primitivas de sincronizagao, das quais os semaforos sao um 
exemplo simples. Usando semaforos, problemas de produtor-consumidor podem ser resolvidos com simplicidade 
e elegancia. 

Dois exemplos de sistemas operacionais sofisticados sao UNIX e Windows 7. Ambos suportam paginagao 
e arquivos mapeados na memoria. Tambem suportam sistemas hierarquicos de arquivos, sendo que os arqui¬ 
vos consistem em sequencias de bytes. Por fim, ambos suportam processos e threads e proporcionam meios de 
sincroniza-los. 
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Problemas 

1. Por que um sistema operacional interpreta somente 
algumas das instrugoes de nivel 3, enquanto um micro- 
programa interpreta todas as instrugoes de nivel ISA? 

2. Uma maquina tern espago de enderego virtual de 32 
bits enderegavel por byte. O tamanho da pagina e 4 
KB. Quantas paginas de espago de enderego virtual 
existem? 

3. E necessario que o tamanho da pagina seja uma 
potencia de 2? Uma pagina de 4.000 bytes de tama¬ 
nho, por exemplo, poderia ser implementada, em teo- 
ria? Caso a resposta seja positiva, isso seria pratico? 

4. Uma memoria virtual tern um tamanho de pagina de 
1.024 palavras, oito paginas virtuais e quatro quadros 
de paginas fisicos. A tabela de paginas e a seguinte: 


Pagina virtual 

Quadro de pagina 

0 

3 

1 

1 

2 

nao esta na memoria principal 

3 

nao esta na memoria principal 

4 

2 

5 

nao esta na memoria principal 

6 

0 

7 

nao esta na memoria principal 


a. Faga uma lista de todos os enderegos virtuais que 
causarao faltas de pagina. 

b. Quais sao os enderegos fisicos para 0, 3.728, 
1.023, 1.024, 1.025, 7.800 e 4.096? 

5. Um computador tern 16 paginas de espago de ende¬ 
rego virtual mas apenas quatro quadros de pagina. 
De inicio, a memoria esta vazia. Um programa refe- 
rencia as paginas virtuais na ordem 

0, 7, 2, 7, 5, 8, 9, 2, 4 


a. Quais references causam uma falta de pagina 
com LRU? 

b. Quais references causam uma falta de pagina 
com FIFO? 

6. Na Segao 6.F4, foi apresentado um algoritmo para 
executar uma estrategia de substituigao de paginas 
FIFO. Invente uma estrategia mais eficiente. Died: 
e possivel atualizar o contador na pagina recem- 
-carregada sem mexer nas outras. 

7. Nos sistemas paginados discutidos no texto, o trata- 
dor de falta de pagina era parte do nivel ISA e, por 
isso, nao estava presente no espago de enderego de 
qualquer programa de nivel OSM. Na realidade, o 
tratador de falta de pagina tambem ocupa paginas e 
poderia, ele mesmo, ser removido sob certas circuns- 
tancias, por exemplo, politica de substituigao de pagi¬ 
nas FIFO. O que aconteceria se o tratador de falta de 
pagina nao estivesse presente quando ocorresse uma 
falta de pagina? Como isso poderia ser consertado? 

8. Nem todos os computadores tern um bit de hardware 
que e automaticamente ajustado quando uma pagina 
sofre uma escrita. Nao obstante, e util monitorar 
quais paginas foram modificadas para evitar supor 
o pior dos casos e escrever todas as paginas de 
volta para o disco apos a utilizagao. Admitindo que 
cada pagina tenha bits de hardware para habilitar 
acesso para leitura, escrita e execugao em separado, 
como o sistema operacional pode monitorar quais 
paginas estao limpas e quais estao sujas? 

9. Uma memoria segmentada tern segmentos paginados. 
Cada enderego virtual tern um numero de segmento 
de 2 bits, um numero de pagina de 2 bits e um desloca- 
mento de 11 bits dentro da pagina. A memoria princi¬ 
pal contem 32 KB divididos em paginas de 2 KB. Cada 
segmento e somente de leitura, ou de leitura/execugao, 
ou de leitura/escrita, ou de leitura/escrita/execugao. As 
tabelas de paginas e a protegao sao as seguintes: 


Segmento 0 

Segmento 1 

Segmento 2 

Segmento 3 

Somente de leitura 

Leitura/execugao 

Leitura/escrita/execugao 

Leitura/escrita 

Pagina 

virtual 

Quadro 

de pagina 

Pagina 

virtual 

Quadro 

de pagina 


Pagina virtual 

Quadro de pagina 

0 

9 

0 

Em disco 

Tabela de 

paginas 

nao esta 

na memoria 

principal 

0 

14 

1 

3 

1 

0 

1 

1 

2 

Em disco 

2 

15 

2 

6 

3 

12 

3 

8 

3 

Em disco 
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Para cada um dos seguintes acessos a memoria virtual, 
diga qual e o enderego flsico calculado. Se ocorrer uma 
falta, informe o tipo. 


Acesso 

Segmento 

Pagina 

Deslocamento 

dentro da pagina 

1. busque dados 

0 

1 

1 

2. busque dados 

1 

1 

10 

3. busque dados 

3 

3 

2.047 

4. armazene dados 

0 

1 

4 

5. armazene dados 

3 

1 

2 

6. armazene dados 

3 

0 

14 

7. desvie para 

1 

3 

100 

8. busque dados 

0 

2 

50 

9. busque dados 

2 

0 

5 

10. desvie para 

3 

0 

60 


10. Alguns computadores permitem E/S diretamente para 
espago de usuario. Por exemplo, um programa pode- 
ria iniciar uma transference de disco para um buffer 
dentro de um processo usuario. Isso causa algum 
problema se for usada compactagao para implementar 
a memoria virtual? Discuta sua resposta. 

11. Sistemas operacionais que permitem arquivos 
mapeados na memoria sempre requerem que um 
arquivo seja mapeado em fronteiras de paginas. Por 
exemplo, com paginas de 4 KB, um arquivo pode ser 
mapeado comegando no enderego virtual 4.096, mas 
nao comegando no enderego virtual 5.000. Por que? 

12. Quando um registrador de segmento e carregado 
no Core i7, o descritor correspondente e buscado e 
carregado em uma parte invislvel do registrador de seg¬ 
mento. Em sua opiniao, por que os projetistas da Intel 
decidiram fazer isso? 

13. Um programa no Core i7 referencia o segmento local 
10 com deslocamento 8.000. O campo BASE do seg¬ 
mento LDT 10 contem 10.000. Qual entrada de pagi- 
na de diretorio o Core i7 utiliza? Qual e o numero da 
pagina? Qual e o deslocamento? 

14. Discuta alguns algoritmos possiveis para remo¬ 
ver segmentos em uma memoria nao paginada, 
mas segmentada. 

15. Compare a fragmentagao interna com a fragmenta- 
gao externa. O que pode ser feito para atenuar cada 
uma delas? 


16. Supermercados enfrentam constantemente um pro¬ 
blema semelhante a substituigao de paginas em sis¬ 
temas de memoria virtual. Eles tern uma quantidade 
fixa de espago de prateleira para exibir um numero 
cada vez maior de produtos. Se aparecer um novo 
produto importante, por exemplo, ragao canina 
100% eficiente, alguns produtos existentes devem ser 
retirados do estoque para abrir espago para ele. Os 
algoritmos de substituigao obvios sao LRU e FIFO. 
Qual deles voce preferiria? 

17. Em certos aspectos, caching e paginagao sao muito 
parecidos. Em ambos os casos ha dois niveis de 
memoria (cache e memoria principal no primeiro e 
memoria principal e disco no ultimo). Neste capitu- 
lo, comentamos alguns argumentos em favor de pagi¬ 
nas de disco grandes e paginas de disco pequenas. Os 
mesmos argumentos sao validos para tamanhos de 
linhas de cache? 

18. Por que muitos sistemas de arquivo requerem que 
um arquivo seja explicitamente aberto com uma cha- 
mada de sistema open antes de ser lido? 

19. Compare os metodos de mapa de bits e de lista de 
lacunas para monitorar o espago livre em um disco 
com 800 cilindros, cada um com 5 trilhas de 32 
setores. Quantas lacunas seriam necessarias antes 
que uma lista de lacunas ficasse maior do que o 
mapa de bits? Suponha que a unidade de alocagao e 
o setor e que a lacuna requer uma entrada de tabela 
de 32 bits. 

20. Um terceiro esquema de alocagao de lacunas, alem 
do melhor ajuste e do primeiro ajuste, e o pior ajus- 
te, onde um processo recebe espago da maior lacuna 
restante. Que vantagem pode ser obtida usando o 
algoritmo do pior ajuste? 

21. Descreva uma finalidade para a chamada de sistema 
open que nao foi mencionada no texto. 

22. Para poder fazer algumas previsoes de desempenho 
de disco e util ter um modelo de alocagao de arma- 
zenamento. Suponha que o disco e vis to como um 
espago de enderego linear de N » 1 setores, consis- 
tindo em uma carreira de blocos de dados, depois 
uma lacuna, depois outra carreira de blocos de dados, 
e assim por diante. Se medidas empiricas mostrarem 
que as distribuigoes de probabilidade para compri- 
mentos de dados e lacunas sao as mesmas, com a 
chance de qualquer uma delas ser i setores sendo 
igual a 2 _i , qual e o numero de lacunas esperado no 
disco? 
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23. Em certo computador, um programa pode criar tan- 28. 
tos arquivos quantos precisar e todos os arquivos 
podem crescer dinamicamente durante a execugao, 

sem dar ao sistema operacional qualquer informagao 
antecipada sobre seu tamanho final. Em sua opiniao, 
os arquivos sao armazenados em setores consecuti- 
vos? Explique sua resposta. 

24. Estudos de diferentes sistemas de arquivo mostraram 
que mais da metade dos arquivos sao de alguns pou- 
cos KB ou menos, e a grande maioria e menor do que 
uns 8 KB. Por outro lado, os 10% correspondentes 
aos maiores arquivos em geral ocupam cerca de 95% 
de todo o espago de disco em uso. Com esses dados 
em maos, a que conclusao voce pode chegar sobre o 
tamanho do bloco de disco? 

25. Considere o seguinte metodo pelo qual um sistema 
operacional poderia executar instrugoes de semafo- 
ro. Sempre que a CPU estiver prestes a fazer um up 
ou um down em um semaforo (uma variavel inteira 
na memoria), em primeiro lugar ela estabelece a 
prioridade da CPU ou mascara bits de modo tal que 
desabilite todas as interrupgoes. Entao, ela busca o 29. 


semaforo, modifica-o e desvia de acordo. Por fim, 
ela habilita interrupgoes novamente. Esse metodo 
funciona se 

a. Houver uma unica CPU que troca processos a 
cada 100 ms? 

b. Duas CPUs compartilharem uma memoria comum 
na qual o semaforo esta localizado? 

26. A descrigao de semaforos na Segao 6.3.3 declara: 
“Para que possam ser monitorados, processos ador- 
mecidos sao encadeados em uma fila”. Qual e a van- 
tagem obtida com o uso de uma fila para os processos 
adormecidos, em vez de despertar um processo ador- 
mecido qualquer quando um up for realizado? 

27. A Nevercrash Operating System Company vem rece- 
bendo queixas de alguns de seus clientes sobre seu 
ultimo langamento, que inclui operagoes de semafo¬ 
ro. Eles acham imoral que os processos bloqueiem 
(o que chamam de “dormir no trabalho”). Uma vez 
que a politica da empresa e dar aos clientes o que eles 
desejam, foi proposto adicionar uma terceira ope- 
ragao, peek (espiar), para suplementar up e down. 
Peek apenas examina o semaforo sem altera-lo nem 
bloquear o processo. Desse modo, programas que 
acham que e imoral bloquear podem inspecionar 
o semaforo antes, para ver se e seguro fazer uma 
down. Essa ideia funcionara se tres ou mais proces¬ 
sos usarem o semaforo? E se dois processos usarem 
o semaforo? 


Monte uma tabela para mostrar quais dos proces¬ 
sos (PI, P2 e P3) estao executando e quais estao 
bloqueados como uma fungao de tempo de 0 a 1.000 
ms. Todos os tres processos executam instrugoes up 
e down no mesmo semaforo. Quando dois processos 
sao bloqueados e e realizado um up, o processo que 
tiver o numero mais baixo e reiniciado, is to e, PI 
obtem preferencia sobre P2 e P3, e assim por diante. 
No inicio, todos os tres estao executando e o sema¬ 
foro esta em 1. 

Em t = 100 PI faz um down 
Em t = 200 PI faz um down 
Em t = 300 P2 faz um up 
Em t = 400 P3 faz um down 
Em t = 500 PI faz um down 
Em t = 600 P2 faz um up 
Em t = 700 P2 faz um down 
Em t = 800 PI faz um up 
Em t = 900 PI faz um up 

Em um sistema de reservas de passagens aereas 
e necessario garantir que, enquanto um processo 
estiver ocupado usando um arquivo, nenhum outro 
processo podera usa-lo. Caso contrario, dois pro¬ 
cessos diferentes, que trabalham para duas agencias 
de viagens diferentes, poderiam, inadvertidamente, 
vender a ultima poltrona em algum voo. Invente um 
metodo de sincronizagao que use semaforos para 
garantir que somente um processo por vez possa 
acessar cada arquivo (considerando que os processos 
obedecem as regras). 

30. Para possibilitar a implementagao de semaforos em 
um computador com varias CPUs que compartilham 
uma memoria comum, os arquitetos de computadores 
costumam fornecer uma instrugao TSL (Test e Set 
Lock - teste e defina trava). TSL X testa a localizagao 
X. Se o conteudo for zero, elas sao ajustadas para 1 em 
um unico ciclo indivisivel de memoria, e a proxima 
instrugao e saltada. Se for diferente de zero, a TSL 
age como uma no-op. Usando TSL, e possivel escrever 
procedimentos lock e unlock com as seguintes pro- 
priedades: lock(x) verifica para ver se x esta travada. 
Se nao estiver, ele trava x e devolve o controle. Se x 
ja estiver travada, ele espera ate que x seja destravada, 
entao trava x e devolve o controle; unlock libera uma 
trava existente. Se todos os processos travarem a tabela 
de semaforos antes de usa-la, somente um processo por 
vez podera mexer nas variaveis e ponteiros, evitando 
assim as disputas. Escreva lock e unlock em linguagem 
de montagem. (Considere tudo o que for razoavel.) 
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31. Mostre os valores de in e out para um buffer circular 
de 65 palavras de comprimento apos cada uma das 
seguintes operagoes. Ambas iniciam em 0. 

a. 22 palavras sao colocadas 

b. 9 palavras sao retiradas 

c. 40 palavras sao colocadas 

d. 17 palavras sao retiradas 

e. 12 palavras sao colocadas 

f. 45 palavras sao retiradas 

g. 8 palavras sao colocadas 

h. 11 palavras sao retiradas 

32. Suponha que uma versao do UNIX use blocos 
de disco de 2 KB e armazene 512 enderegos de 
disco por bloco indireto (unico, duplo e triplo). 
Qual seria o tamanho maximo de um arquivo? 
(Considere que os ponteiros de arquivo tern 64 bits 
de largura.) 

33. Suponha que a chamada de sistema UNIX 

unlink("/usr/ast/bin/game3") 

fosse executada no contexto da Figura 6.37. Descreva 
cuidadosamente quais sao as alteragoes feitas no sis¬ 
tema de diretorios. 

34. Imagine que voce tivesse de executar o sistema UNIX 
em um microcomputador cuja memoria principal 
fosse pequena. Apos consideraveis ajustes aqui e ali, 
ele ainda nao cabe muito bem, portanto, voce esco- 
lheu aleatoriamente uma chamada de sistema para 
sacrificar em prol do bem geral. Voce escolheu pipe, 
que cria os pipes usados para enviar fluxos de bytes de 
um processo para outro. Ainda e possivel, de alguma 
forma, implementar redirecionamento de E/S? E pipe¬ 
lines! Discuta os problemas e as possiveis solugoes. 

35. O Comite de Justiga para os Descritores de Arquivo 
esta organizando um protesto contra o sistema UNIX 
porque, toda vez que este retorna um descritor de 
arquivo, sempre retorna o numero mais baixo que 
nao esta atualmente em uso. Por conseguinte, des¬ 
critores de arquivo de numero mais alto quase nunca 
sao utilizados. O piano e retornar o numero mais 
baixo que ainda nao foi utilizado pelo programa em 
vez do numero mais baixo que nao esta atualmente 
em uso. O Comite declara que a execugao e trivial, 
que nao afetara os programas existentes e que e mais 
justo. O que voce acha? 

36. No Windows 7, e possivel estabelecer uma lista de 
controle de acesso de modo tal que Roberta nao 


tenha nenhum acesso a um arquivo, mas todo o resto 
do pessoal tenha acesso a ele. Em sua opiniao, como 
isso e implementado? 

37. Descreva dois modos diferentes de programar proble¬ 
mas de produtor-consumidor usando buffers compar- 
tilhados e semaforos no Windows 7. Pense em como 
implementar o buffer compartilhado em cada caso. 

38. E comum testar algoritmos de substituigao de pagi- 
na por simulagao. Neste exerclcio, voce deve escre- 
ver um simulador para uma memoria virtual baseada 
em paginas, para uma maquina com 64 paginas de 
1 KB. O simulador deve manter uma unica tabela de 64 
entradas, uma por pagina, que contem o numero de 
pagina flsica correspondente aquela pagina virtual. 
O simulador deve ler um arquivo que contem ende¬ 
regos virtuais em sistema decimal, um enderego por 
linha. Se a pagina correspondente estiver na memo¬ 
ria, apenas registre uma presenga de pagina. Se ela 
nao estiver na memoria, chame um procedimento 
de substituigao de pagina para escolher a pagina que 
sera despejada (isto e, uma entrada na tabela para 
ser sobrescrita). Na realidade, nao ocorre transporte 
de pagina. Gere um arquivo que consiste em ende¬ 
regos aleatorios e teste o desempenho para LRU e 
FIFO. Em seguida, gere um arquivo de enderegos 
no qual x por cento dos enderegos sao quatro bytes 
mais altos do que o anterior (para simular locali- 
dade). Execute testes para diversos valores de x e 
informe os respectivos resultados. 

39. O programa da Figura 6.26 tern uma condigao de 
disputa fatal porque dois threads acessam variaveis 
compartilhadas de modo nao controlado, sem usar 
semaforos nem qualquer outro metodo de exclu- 
sao mutua. Execute esse programa para ver quanto 
tempo ele leva ate parar. Se voce nao conseguir 
faze-lo parar, modifique-o para aumentar o tamanho 
da janela de vulnerabilidade, colocando algum pro- 
cessamento de calculo entre o ajuste de m.in e m.out 
e testando-os. Quanto calculo voce tern de colocar 
antes que ele falhe, por exemplo, uma vez por hora? 

40. Escreva um programa para UNIX ou Windows 7 que 
tome como entrada o nome de um diretorio. O pro¬ 
grama deve imprimir uma lista dos arquivos no dire¬ 
torio, uma linha por arquivo e, depois do nome do 
arquivo, imprimir o tamanho do arquivo. Imprima 
nomes de arquivos na ordem em que ocorrem no 
diretorio. Posigoes nao utilizadas no diretorio devem 
ser listadas como (nao utilizadas). 
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N os capltulos 4, 5 e 6 discutimos tres nlveis diferentes presentes na maioria dos computadores contem- 
poraneos. Este capitulo trata principalmente de outro nivel que, em essencia, tambem esta presente em 
todos os computadores modernos: o nivel da linguagem de montagem (ou assembly). O nivel da lingua- 
gem de montagem tern uma caracteristica significativamente diferente em relagao aos niveis de microarquitetura, 
ISA e maquina do sistema operacional - e implantado por tradugao em vez de interpretagao. 

Programas que convertem um programa de usuario escrito em alguma linguagem para outra sao denomina- 
dos tradutores. A linguagem na qual o programa original e escrito e denominada linguagem-fonte, e a linguagem 
para a qual ela e convertida e denominada linguagem-alvo. Ambas, linguagem-fonte e linguagem-alvo, definem 
nlveis. Se houver um processador disponivel que possa executar diretamente programas escritos em linguagem- 
-fonte, nao ha nenhuma necessidade de traduzir o programa-fonte para a linguagem-alvo. 

A tradugao e usada quando ha um processador (hardware ou um interpretador) disponivel para a linguagem- 
-alvo, mas nao para a linguagem-fonte. Se a tradugao foi realizada de modo correto, a execugao do programa 
traduzido dara resultados identicos aos que a execugao do programa-fonte daria se houvesse um processador dis¬ 
ponivel para ele. Por conseguinte, e possivel implementar um novo nivel para o qual nao ha nenhum processador, 
em primeiro lugar traduzindo programas escritos para esse nivel para um nivel-alvo e em seguida executando os 
programas no nivel-alvo resultante. 

E importante observar a diferenga entre tradugao, de um lado, e interpretagao, de outro. Na tradugao, o progra¬ 
ma original na linguagem-fonte nao e executado diretamente. Em vez disso, ele e convertido para um programa 
equivalente denominado programa-objeto ou programa binario executavel, cuja execugao e realizada somente 
apos a conclusao da tradugao. Ha duas etapas distintas na tradugao: 
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1. Geragao de um programa equivalente na linguagem-alvo. 

2. Execugao do programa recem-gerado. 


Essas duas etapas nao ocorrem ao mesmo tempo. A segunda etapa so comega apos a conclusao da primeira. 
Na interpretagao, ha apenas uma etapa: execugao do programa-fonte original. Nao e preciso gerar com ante- 
cedencia qualquer programa equivalente, embora, as vezes, o programa-fonte seja convertido para uma forma 
intermediaria (por exemplo, codigo de bytes Java) para facilitar a interpretagao. 

Enquanto o programa-objeto esta sendo executado, apenas tres niveis estao em evidencia: o nivel da micro- 
arquitetura, o nivel ISA e o nivel de maquina do sistema operacional. Por conseguinte, tres programas - o pro¬ 
grama-objeto do usuario, o sistema operacional e o microprograma (se houver algum) - podem ser encontrados 
na memoria do computador durante a execugao. Todos os vestlgios do programa-fonte original desapareceram. 
Assim, o numero de niveis presentes durante o tempo de execugao pode ser diferente do numero de niveis 
presentes antes da tradugao. Entretanto, deve-se observar que, embora definamos um nivel pelas instrugoes e 
construgoes lingulsticas disponlveis para seus programadores (e nao pela tecnica de execugao), outros autores as 
vezes fazem maior distingao entre niveis implementados por interpretadores durante a execugao e niveis imple- 
mentados por tradugao. 


7.1 Introduce a linguagem de montagem 

De modo geral, tradutores podem ser divididos em dois grupos, dependendo da relagao entre a linguagem- 
-fonte e a linguagem-alvo. Quando a linguagem-fonte e, basicamente, uma representagao simbolica para uma 
linguagem de maquina numerica, o tradutor e denominado assembler (montador) e a linguagem-fonte e denomi- 
nada linguagem de montagem (linguagem assembly ). Quando a linguagem-fonte e uma linguagem de alto nivel 
como Java ou C e a linguagem-alvo e uma linguagem de maquina numerica ou uma representagao simbolica de 
uma linguagem de maquina numerica, o tradutor e denominado compilador. 

7.1.1 0 que e uma linguagem de montagem? 

Uma linguagem de montagem pura e uma linguagem na qual cada declaragao produz exatamente uma 
instrugao de maquina. Em outras palavras, ha uma correspondence um-para-um entre instrugoes de maquina 
e declaragoes no programa de montagem. Se cada linha no programa em linguagem de montagem contiver exa¬ 
tamente uma declaragao e cada palavra de maquina contiver exatamente uma instrugao de maquina, entao um 
programa de montagem de n linhas produzira um programa em linguagem de maquina de n instrugoes. 

A razao por que as pessoas usam linguagem de montagem, ao contrario de programagao em linguagem de 
maquina (em binario ou hexadecimal), e que e muito mais facil programar. A utilizagao de nomes simbolicos 
e enderegos simbolicos em vez de binarios ou hexadecimais faz uma enorme diferenga. A maioria das pessoas 
pode se lembrar de que as abreviaturas para somar, subtrair, multiplicar e dividir sao ADD, SUB, MUL e DIV, 
mas poucas conseguem se recordar dos valores numericos correspondentes que a maquina usa. O programador 
de linguagem de montagem so precisa se lembrar dos nomes simbolicos porque o assembler os traduz para 
instrugoes de maquina. 

As mesmas observagoes se aplicam a enderegos. O programador de linguagem de montagem pode dar nomes 
simbolicos a locais de memoria e deixar para o assembler a preocupagao de fornecer os valores numericos corre- 
tos. O programador de linguagem de maquina deve sempre trabalhar com os valores numericos dos enderegos. 
Como consequencia, hoje ninguem programa em linguagem de maquina, embora isso acontecesse decadas atras, 
antes da invengao dos assemblers. 
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Linguagens de montagem tern outra propriedade, alem do mapeamento um-para-um de declaragoes nessa 
linguagem para instrugoes de maquina, que as distinguem de linguagens de alto nivel. O programador de lingua- 
gem de montagem tern acesso a todos os recursos e instrugoes disponlveis na maquina-alvo; o programador de 
linguagem de alto nivel nao tern. Por exemplo, se a maquina-alvo tern um bit de excesso (overflow), um programa 
em linguagem de montagem pode testa-lo, mas um programa em Java, nao. O programa em linguagem de mon¬ 
tagem pode executar todas as instrugoes presentes no conjunto de instrugoes da maquina-alvo, mas o programa 
em linguagem de alto nivel, nao. Em suma, tudo o que pode ser feito em linguagem de maquina pode ser feito em 
linguagem de montagem, mas muitas instrugoes, registradores e recursos semelhantes nao estao disponlveis para 
utilizagao pelo programador de linguagem de alto nivel. Linguagens para programagao de sistemas, como a C, 
geralmente sao um hibrido desses tipos, com a sintaxe de uma linguagem de alto nivel, mas conservando muito 
do acesso a maquina de uma linguagem de montagem. 

Uma diferenga final que vale a pena explicitar e que um programa em linguagem de montagem so pode ser 
executado em uma familia de maquinas, ao passo que um programa escrito em uma linguagem de alto nivel tern 
a capacidade potencial de ser executado em muitos equipamentos. Essa capacidade de transferir software de um 
computador para outro e de grande importancia pratica para muitas aplicagoes. 

7.1.2 Por que usar linguagem de montagem? 

A programagao em linguagem de montagem e dificil - nao se iluda. Nao e para covardes e fracos de cora- 
gao. Alem do mais, escrever um programa nessa linguagem demora muito mais do que fazer o mesmo programa 
em uma linguagem de alto nivel. E tambem demora muito mais para depurar, alem de a manutengao ser muito 
mais dificil. Dadas essas condigoes, por que alguem programaria em linguagem de montagem? Ha duas razoes: 
desempenho e acesso a maquina. Antes de tudo, um programador especializado em linguagem de montagem pode 
produzir muitas vezes codigo muito menor e muito mais rapido do que um programador de linguagem de alto 
nivel. Para algumas aplicagoes, rapidez e tamanho sao criticos. Muitas aplicagoes embutidas, como o codigo em 
um cartao inteligente (smart card) ou cartao RFID, drivers de dispositivos, bibliotecas de manipulagao de strings , 
rotinas de BIOS e os lagos internos de aplicagoes de desempenho critico caem nessa categoria. 

Segundo, alguns procedimentos precisam de acesso completo ao hardware, algo que as vezes e impossivel em 
linguagens de alto nivel. Por exemplo, os tratadores de interrupgoes e excegoes de baixo nivel em um sistema opera- 
cional e os controladores de dispositivos em muitos sistemas embutidos de tempo real se encontram nessa categoria. 

Alem dessas razoes para programar em linguagem de montagem, ha tambem duas razoes para estuda-la. 
Primeiro, um compilador deve ou produzir a saida usada por um assembler ou realizar o processo de montagem 
por si so. Assim, entender essa linguagem e essencial para compreender como funcionam os compiladores. Afinal, 
alguem precisa escrever o compilador (e seu assembler). 

Segundo, estudar a linguagem de montagem expoe a maquina real a vista. Para estudantes de arquitetura de 
computadores, escrever um pouco de codigo de montagem e a unica maneira de ter uma ideia de como realmente 
sao as maquinas no nivel da arquitetura. 

7.1.3 Formato de uma dedaracao em linguagem de montagem 

Embora a estrutura de uma declaragao em linguagem de montagem seja muito parecida com a estrutura da 
instrugao de maquina que ela representa, linguagens de montagem para maquinas diferentes sao parecidas o bas- 
tante umas com as outras para permitir uma discussao de linguagem de montagem em geral. A Figura 7.1 mostra 
fragmentos de programas em linguagem de montagem para o x86 para efetuar o calculo N = I + J. As declaragoes 
abaixo da linha em branco sao comandos para o assembler reservar memoria para as variaveis IJeNe nao sao 
representagoes simbolicas de instrugoes de maquina. 
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Figura 7.1 


Calculo de/V = / + ino x86. 



Existem varios assemblers para a famllia Intel (isto e, x86), cada um com uma sintaxe diferente. Neste capl- 
tulo, usaremos a linguagem Microsoft MASM para nossos exemplos. Existem muitos assemblers para o ARM, mas 
a sintaxe e comparavel ao assembler do x86, de modo que um exemplo devera ser suficiente. 

Declaragoes em linguagem de montagem tern quatro partes: um campo de etiqueta, um de operagao (opcode), 
um de operandos e um de comentarios. Nenhum deles e obrigatorio. Etiquetas, que sao usadas para dar nomes sim- 
bolicos para enderegos de memoria, sao necessarias em declaragoes executaveis de modo a possibilitar desvios para 
essas declaragoes. Tambem sao necessarias para palavras de dados, permitindo que os dados ali armazenados sejam 
acesslveis por nomes simbolicos. Se uma declaragao tiver etiqueta, esta (em geral) comega na coluna 1. 

O exemplo da Figura 7.1 tern quatro etiquetas: FORMULA, I,JeN.O MASM requer dois-pontos em eti¬ 
quetas de codigo, mas nao nas de dados. Nao ha nada de fundamental nessa diferenga. Outros assemblers podem 
ter demandas diferentes. Nada na arquitetura subjacente sugere a preferencia por uma ou outra notagao. Uma 
vantagem da notagao com dois-pontos e que, com ela, uma etiqueta pode aparecer sozinha em uma linha, com o 
opcode na coluna 1 da linha seguinte. Esse estilo as vezes e conveniente para compiladores. Sem os dois-pontos, 
nao haveria como diferenciar uma etiqueta sozinha em uma linha de um opcode tambem sozinho em uma linha. 
Os dois-pontos eliminam essa ambiguidade potencial. 

Uma caracterlstica desastrosa de alguns assemblers e que etiquetas estao restritas a seis ou oito caracteres. 
Por comparagao, a maioria das linguagens de alto nivel permite a utilizagao de nomes de comprimento arbitrario. 
Nomes longos, bem escolhidos, facilitam muito mais a leitura e a compreensao dos programas por outras pessoas. 

Cada maquina tern alguns registradores, de modo que precisam de nomes. Os registradores do x86 tern 
nomes como EAX, EBX, ECX e assim por diante. 

O campo de opcode contem ou uma abreviatura simbolica para ele - se a declaragao for uma representagao 
simbolica para uma instrugao de maquina - ou um comando para o proprio assembler. A escolha de um nome ade- 
quado e apenas uma questao de gosto, e diferentes projetistas de linguagem de montagem muitas vezes fazem esco- 
lhas diferentes. Os projetistas do assembler MASM decidiram usar MOV tanto para carregar o registrador a partir da 
memoria quanto para armazenar um registrador na memoria, mas poderiam ter escolhido MOVE ou LOAD e STORE. 

Os programas de montagem em geral precisam reservar espago para variaveis. Os projetistas da linguagem 
de montagem MASM escolheram DD (Define Double), ja que uma palavra no 8088 tinha 16 bits. 

O campo de operando de uma declaragao em linguagem de montagem e usado para especificar os enderegos 
e registradores usados como operando pela instrugao de maquina. O campo de operando de uma instrugao de 
adigao de inteiros informa o que sera somado a que. O de uma instrugao de desvio informa para onde desviar. 
Operandos podem ser registradores, constantes, localizagoes de memoria e assim por diante. 

O campo de comentarios oferece um lugar onde os programadores podem colocar explicagoes uteis sobre o 
funcionamento do programa para beneflcio de outros programadores que queiram usar ou modificar o programa 
mais tarde (ou para beneflcio do programador original um ano depois). Um programa em linguagem de montagem 
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sem essa documentagao e quase incompreenslvel para todos os programadores, entre eles muitas vezes tambem o 
seu autor. E um campo exclusivamente para consumo de seres humanos; nao tem efeito algum sobre o processo 
de montagem nem sobre o programa gerado. 

7.1.4 Pseudoinstrucoes 

Alem de especificar quais instrugoes de maquina executar, um programa em linguagem de montagem tam¬ 
bem pode conter comandos para o proprio assembler, por exemplo, pedir que ele reserve algum armazenamento 
ou ejete uma nova pagina na listagem. Tais comandos sao denominados pseudoinstrugoes ou, as vezes, diretivas 
de assembler. Ja vimos uma pseudoinstrugao tlpica na Figura 7.1: DD. Algumas outras estao relacionadas na 
Figura 7.2. Elas foram tiradas do assembler Microsoft MASM para o x86. 


Figura 7.2 


Algumas das pseudoinstrucoes disponiveis no assembler MASM. 


Pseudoinstrugao 

Significado 1 

SEGMENT 

Inicie um novo segmento (texto, dados etc.) com certos atributos 

ENDS 

Encerre o segmento corrente 

ALIGN 

Controle o alinhamento da proxima instrugao ou dados 

EQU 

Defina um novo simbolo igual a uma expressao dada 

DB 

Aloque armazenamento para um ou mais bytes (inicializados) 

DW 

Aloque armazenamento para um ou mais itens de dados (palavras) de 16 bits (inicializados) 

DD 

Aloque armazenamento para um ou mais itens de dados (duplos) de 32 bits (inicializados) 

DQ 

Aloque armazenamento para um ou mais itens de dados (quadruplos) de 64 bits (inicializados) 

PROC 

Inicie um procedimento 

ENDP 

Encerre um procedimento 

MACRO 

Inicie uma definigao de macro 

ENDM 

Encerre uma definigao de macro 

PUBLIC 

Exporte um nome definido neste modulo 

EXTERN 

Importe um nome definido de outro modulo 

INCLUDE 

Busque e inclua um outro arquivo 

IF 

Inicie a montagem condicional baseada em uma expressao dada 

ELSE 

Inicie a montagem condicional se a condigao IF acima for falsa 

ENDIF 

Termine a montagem condicional 

COMMENT 

Defina um novo caractere de inicio de comentario 

PAGE 

Gere uma quebra de pagina na listagem 

END 

Termine o programa de montagem 


A pseudoinstrugao SEGMENT inicia um novo segmento e ENDS encerra um segmento. E permitido iniciar um 
segmento de texto, com codigo, entao iniciar um de dados e, em seguida, voltar ao segmento de texto e assim por diante. 
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ALIGN impoe a proxima linha, em geral dados, um enderego que e um multiplo de seu argumento. Por 
exemplo, se o segmento atual ja tiver 61 bytes de dados, entao, apos ALIGN 4, o proximo enderego alocado sera 64. 

EQU e usada para dar um nome simbolico a uma expressao. Por exemplo, apos a pseudoins trugao 

BASE EQU 1000 

o slmbolo BASE pode ser usado em todos os lugares no lugar de 1000. A expressao que vem depois de EQU pode 
envolver varios slmbolos definidos combinados com operadores aritmeticos e outros, por exemplo, em 

LIMIT EQU 4 * BASE + 2000 

Grande parte dos assemblers , incluindo o MASM, requer que um slmbolo seja definido antes de ser usado em 
uma expressao como essa. 

As quatro pseudoinstrugoes seguintes, DB, DW, DD e DQ, alocam armazenamento para uma ou mais varia- 
veis de tamanhos 1, 2, 4 ou 8 bytes, respectivamente. Por exemplo, 

TABLE DB 11, 23, 49 

aloca espago para 3 bytes e os inicializa com 11, 23 e 49, respectivamente. Tambem define o slmbolo TABLE e o 
ajusta com o enderego onde lie armazenado. 

As pseudoinstrugoes PROC e ENDP definem o inlcio e o final de procedimentos de linguagem de montagem, 
respectivamente. Procedimentos em linguagem de montagem tern a mesma fungao que procedimentos em outras 
linguagens de programagao. De modo semelhante, MACRO e ENDM delimitam o escopo de uma definigao de 
macro. Estudaremos macros mais adiante neste capltulo. 

As duas pseudoinstrugoes seguintes, PUBLIC e EXTERN, controlam a visibilidade de slmbolos. E comum 
escrever programas como um conjunto de arquivos. Muitas vezes, um procedimento que esta em um arquivo 
precisa chamar um procedimento ou acessar uma palavra de dados definida em outro arquivo. Para possibilitar 
essas references cruzadas entre arquivos, um slmbolo que deve ficar disponlvel para outros arquivos e exportado 
usando PUBLIC. De modo semelhante, para evitar que o assembler se queixe da utilizagao de um slmbolo que nao 
esta definido no arquivo corrente, o slmbolo pode ser declarado como EXTERN, o que informa ao assembler que 
ele sera definido em algum outro arquivo. Slmbolos que nao sao declarados em nenhuma dessas pseudoinstru¬ 
goes tern como escopo o arquivo local. Esse padrao ( default ) significa que usar, por exemplo, FOO em multiplos 
arquivos nao gera um conflito porque cada definigao e local a seu proprio arquivo. 

A pseudoinstrugao INCLUDE faz com que o assembler busque outro arquivo e o inclua no corpo do arquivo cor¬ 
rente. Esses arquivos incluldos costumam conter definigoes, macros e outros itens necessarios em multiplos arquivos. 

Muitos assemblers suportam montagem condicional. Por exemplo, 

WORDSIZE EQU 32 

IF WORDSIZE GT 32 

WSIZE: DD 64 

ELSE 

WSIZE: DD 32 

ENDIF 

aloca uma unica palavra de 32 bits e chama seu enderego WSIZE. A palavra e inicializada com 64 ou 32, depen- 
dendo do valor de WORDSIZE , nesse caso, 32. Em geral, essa construgao seria usada para escrever um programa 
que poderia ser montado para o modo de 32 bits ou para o de 64 bits. Por abranger todo o codigo dependente 
de maquina em IF e ENDIF, e entao mudar uma unica definigao, WORDSIZE , o programa pode ser ajustado 
automaticamente para montar para qualquer um dos dois tamanhos. Usando essa tecnica, e posslvel manter um 
unico programa-fonte para varias maquinas-alvo (diferentes), o que facilita o desenvolvimento e a manutengao 
de software. Em muitos casos, todas as definigoes dependentes de maquina, como WORDSIZE , sao reunidas em 
um unico arquivo, com versoes diferentes para maquinas diferentes. Incluindo o arquivo de definigoes correto, o 
programa pode ser recompilado com facilidade para computadores diferentes. 
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A pseudoinstrugao COMMENT permite que o usuario altere o delimitador de comentario para algo diferente 
de ponto-e-vlrgula. PAGE e usada para controlar a listagem que o assembler pode produzir, se requisitado. Por 
fim, END marca o final do programa. 

Existem muitas outras pseudoinstrugoes em MASM. Outros assemblers x86 tem um conjunto diferente de 
pseudoinstrugoes disponlveis porque elas nao sao ditadas pela arquitetura subjacente, mas pelo gosto do escritor 
do assembler. 


7.2 Macros 

Programadores de linguagem de montagem com frequencia precisam repetir sequencias de instrugoes varias 
vezes dentro de um programa. O modo mais obvio de fazer isso e escrever as instrugoes requeridas onde quer que 
sejam necessarias. Se uma sequencia for longa, entretanto, ou tiver de ser usada muitas vezes, escreve-la repetidas 
vezes torna-se tedioso. 

Uma abordagem alternativa e transformar a sequencia em um procedimento e chama-la sempre que necessa- 
rio. Essa estrategia tem a desvantagem de requerer uma instrugao de chamada de procedimento e uma instrugao 
de retorno a ser executada toda vez que uma sequencia for necessaria. Se as sequencias forem curtas (por exem- 
plo, duas instrugoes) mas usadas com frequencia, a sobrecarga da chamada de procedimento pode reduzir de 
modo significativo a velocidade do programa. Macros proporcionam uma solugao facil e eficiente para o problema 
de precisar repetidas vezes das mesmas (ou de quase as mesmas) sequencias de instrugoes. 

7.2.1 Definicao, chamada e expansao de macro 

Uma definigao de macro e um modo de dar um nome a um pedago de texto. Apos uma macro ser definida, 
o programador pode escrever o nome dela em vez do pedago de programa. Uma macro e, na verdade, uma abre- 
viatura para um pedago de texto. A Figura 7.3(a) mostra um programa em linguagem de montagem para o x86 
que troca o conteudo das variaveis p e q duas vezes. Essas sequencias poderiam ser descritas como macros, como 
mostra a Figura 7.3(b). Apos sua definigao, toda vez que ocorrer SWAP, ela sera substitulda pelas quatro linhas: 

MOV EAX,P 

MOV EBX,Q 

MOV Q,EAX 

MOV P,EBX 

O programador definiu SWAP como uma abreviatura para as quatro declaragoes mostradas anteriormente. 


Figura 7.3 


Codigo em linguagem de montagem para trocar p e Q duas vezes. (a) Sem uma macro, (b) Com uma macro. 


MOV 

EAX,P 

SWAP MACRO 

MOV 

EBX,Q 

MOV EAX,P 

MOV 

Q,EAX 

MOV EBX,Q 

MOV 

P,EBX 

MOV Q,EAX 



MOV P,EBX 

MOV 

EAX,P 

ENDM 

MOV 

EBX,Q 


MOV 

Q,EAX 

SWAP 

MOV 

P,EBX 




SWAP 


(a) 

(b) 
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Embora assemblers diferentes tenham notagoes ligeiramente diferentes para definir macros, todos requerem 
as mesmas partes basicas em uma definigao de macro: 

1. Um cabegalho de macro que de o nome da macro que esta sendo definida. 

2. O texto que abrange o corpo da macro. 

3. Uma pseudoinstrugao que marca o final da definigao (por exemplo, ENDM). 


Quando o assembler encontra uma definigao de macro, ele a salva em uma tabela de definigao para uso sub- 
sequente. Desse ponto em diante, sempre que o nome da macro (SWAP no exemplo da Figura 7.3) aparecer como 
um opcode , o assembler o substitui pelo corpo da macro. A utilizagao de um nome de macro como um opcode e 
conhecida como chamada de macro e sua substituigao pelo corpo da macro e denominada expansao de macro. 

A expansao de macro ocorre durante o processo de montagem e nao durante a execugao do programa. Esse 
ponto e importante. O programa da Figura 7.3(a) e o da Figura 7.3(b) produzirao exatamente o mesmo codigo 
de linguagem de maquina. Examinando apenas o programa em linguagem de maquina, e imposslvel dizer se 
houve ou nao macros envolvidas em sua geragao. A razao e que, logo que a expansao de macro e conclulda, suas 
definigoes sao descartadas pelo assembler. Nao resta vestlgio algum delas no programa gerado. 

Chamadas de macro nao devem ser confundidas com chamadas de procedimento. A diferenga basica e que 
a primeira e uma instrugao para o assembler substituir o nome da macro pelo corpo dela. Uma chamada de pro¬ 
cedimento e uma instrugao de maquina que e inserida no programa-objeto e que mais tarde sera executada para 
chamar o procedimento. A Figura 7.4 compara chamadas de macro com as de procedimento. 


Figura 7.4 Comparacao de chamadas de macro com chamadas de procedimento. 


j Item 

Chamada de macro 

Chamada de procedimento 

Quando a chamada e feita? 

Durante montagem 

Durante execugao do programa 

0 corpo e inserido no programa-objeto em todos os 
lugares em que a chamada e feita? 

Sim 

Nao 

Uma instrugao de chamada de procedimento e inseri¬ 
da no programa-objeto e executada mais tarde? 

Nao 

Sim 

Deve ser usada uma instrugao de retorno apos 

a conclusao da chamada? 

Nao 

Sim 

Quantas copias do corpo aparecem no programa- 
-objeto? 

Uma por chamada de macro 

Uma 


Em termos conceituais, e melhor imaginar a realizagao do processo de montagem em duas etapas. Na etapa 
um, todas as definigoes de macro sao salvas e as chamadas de macro sao expandidas. Na etapa dois, o texto resul¬ 
tan te e processado como se estivesse no programa original. Segundo essa visao, o programa-fonte e lido e entao 
transformado em um novo programa do qual todas as definigoes de macro foram removidas e no qual todas as 
chamadas de macro foram substituldas pelos seus corpos. A salda resultante, um programa em linguagem de 
montagem que nao contem nenhuma macro, e entao alimentada no assembler. 

E importante ter em mente que um programa e uma cadeia de caracteres que inclui letras, dlgitos, espagos, 
sinais de pontuagao e retornos ao inlcio da linha (“carriage returns ”)• Expansao de macro consiste em substituir 
certas subcadeias por outras cadeias de caracteres. Um processador de macros e uma tecnica para manipular 
cadeias de caracteres sem considerar seu significado. 
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7.2.2 Macros com parametros 

O processador de macros que acabamos de descrever pode ser usado para encurtar programas nos quais exa- 
tamente a mesma sequencia de instrugoes ocorre repetidas vezes. Contudo, muitas vezes um programa contem 
diversas sequencias de instrugoes que sao quase (mas nao de todo) identicas, como ilustrado na Figura 7.5(a). 
Aqui, a primeira sequencia permuta P e Q e a segunda sequencia permuta R e S. 


Figura 7.5 Sequencias de dedaracoes quase identicas. (a) Sem uma macro, (b) Com uma macro. 


MOV 

EAX,P 

CHANGE MACRO PI, P2 

MOV 

EBX,Q 

MOV EAX,P1 

MOV 

Q,EAX 

MOV EBX,P2 

MOV 

P,EBX 

MOV P2,EAX 



MOV P1.EBX 

MOV 

EAX,R 

ENDM 

MOV 

EBX,S 


MOV 

S,EAX 

CHANGE P, Q 

MOV 

R,EBX 




CHANGE R, S 


(a) 

(b) 


Assemblers de macros tratam o caso de sequencias praticamente identicas permitindo que definigoes de 
macro fornegam parametros formais e que chamadas de macro fornegam parametros reais. Quando uma macro 
e expandida, cada parametro formal que aparece no corpo da macro e substituldo pelo parametro real correspon- 
dente. Os parametros reais sao colocados no campo de operando da chamada de macro. A Figura 7.5(b) mostra 
o programa da Figura 7.5(a) reescrito usando uma macro com dois parametros. Os slmbolos PI e P2 sao os para¬ 
metros formais. Cada ocorrencia de PI dentro de um corpo de macro e substitulda pelo primeiro parametro real 
quando a macro e expandida. De modo semelhante, P2 e substituldo pelo segundo parametro real. Na chamada 
de macro 

CHANGE P, Q 

Peo primeiro e Q e o segundo parametro real. Assim, os programas executaveis produzidos por ambas as partes 
da Figura 7.5 sao identicos. Eles contem exatamente as mesmas instrugoes com os mesmos operandos. 

7.2.3 Caracteristicas avancadas 

A maioria dos processadores de macros tern uma grande quantidade de caracteristicas avangadas para facili- 
tar a vida do programador de linguagem de montagem. Nesta segao, vamos examinar algumas das caracteristicas 
avangadas do MASM. Um problema que ocorre com todos os assemblers que suportam macros e a duplicagao de 
rotulos. Suponha que uma macro contenha uma instrugao de desvio condicional e um rotulo para o qual ela desvia. 
Se ela e chamada duas ou mais vezes, o rotulo sera duplicado, o que causa um erro de montagem. Uma solugao e 
fazer com que o programador fornega um rotulo diferente em cada chamada, como um parametro. Uma solugao 
diferente (usada pelo MASM) e permitir que um rotulo seja declarado LOCAL e que o assembler gere automati- 
camente um rotulo diferente a cada expansao da macro. Alguns outros assemblers tern uma regra que impoe que 
rotulos numericos sao automaticamente locais. 
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O MASM e grande parte dos outros assemblers permitem que macros sejam definidas dentro de outras 
macros. Essa caracterlstica e muito util em combinagao com a montagem condicional. Em geral, a mesma macro 
e definida em ambas as partes de uma declaragao IF, assim: 


Ml MACRO 

IF WORDSIZE GT 16 
M2 MACRO 

ENDM 

ELSE 

M2 MACRO 


ENDM 

ENDIF 

ENDM 


De qualquer modo, a macro M2 sera definida, mas a definigao dependera de o programa ser montado em 
uma maquina de 16 bits ou em uma de 32 bits. Se Ml nao for chamada, M2 nao sera definida de modo algum. 

Por fim, macros podem chamar outras macros, incluindo elas mesmas. Se uma macro for recursiva, isto e, 
chamar a si mesma, deve passar para si mesma um parametro que e trocado a cada expansao, e a macro deve testar 
o parametro e encerrar recursao quando alcangar certo valor. Caso contrario, o assembler pode ser colocado em 
um lago infinito. Se isso acontecer, o assembler deve ser terminado explicitamente pelo usuario. 

7.2.4 Implementacao de um processador de macros em um assembler 

Para implementar um processador de macros, um assembler deve ser capaz de realizar duas fungoes: salvar 
definigoes de macro e expandir chamadas de macro. Vamos examinar essas duas fungoes, uma por vez. 

O assembler deve manter uma tabela com todos os nomes de macros e, junto com cada nome, um ponteiro 
para sua definigao armazenada, de modo que ela possa ser recuperada quando necessario. Alguns assemblers tern 
uma tabela separada para nomes de macros e alguns tern uma tabela de opcodes combinados, na qual sao mantidas 
todas as instrugoes de maquina, pseudoinstrugoes e nomes de macro. 

Quando uma definigao de macro e encontrada, e criada uma entrada da tabela que contem o nome da macro, 
o numero de parametros formais e um ponteiro para uma outra tabela - a tabela de definigao de macros - onde o 
corpo da macro sera mantido. Nesse mesmo momento tambem e construlda uma lista dos parametros formais 
para utilizagao no processamento da definigao. Entao, o corpo da macro e lido e armazenado na tabela de defini¬ 
gao. Parametros formais que ocorrem dentro do corpo sao indicados por algum slmbolo especial. Como exemplo, 
a representagao interna da definigao de macro de CHANGE na qual o ponto-e-vlrgula representa retorno ao inlcio 
da linha (carriage return ) e&eo slmbolo de parametro formal e mostrada a seguir: 

MOV EAX.&P1; MOV EBX.&P2; MOV &P2,EAX; MOV &P1.EBX; 

Dentro da tabela de definigao de macros, o corpo da macro e simplesmente uma cadeia de caracteres. 

Durante a etapa um da montagem, opcodes sao consultados e macros sao expandidas. Sempre que uma 
definigao de macro for encontrada, ela e armazenada na tabela. Quando uma macro e chamada, o assembler para 
temporariamente de ler entradas do dispositivo de entrada e, em lugar disso, comega a ler do corpo armazenado da 
macro. Parametros formais extraldos do corpo armazenado da macro sao substituldos pelos parametros reais forne- 
cidos na chamada. A presenga do & na frente dos parametros formais facilita seu reconhecimento pelo assembler. 
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7.3 0 processo de montagem 

Nas segoes seguintes, vamos descrever resumidamente como um assembler funciona. Embora cada maquina 
tenha uma linguagem de montagem diferente, o processo de montagem e semelhante o suficiente para que pos- 
samos descreve-lo em termos gerais. 

7.3.1 Assemblers de duas etapas 

Como um programa em linguagem de montagem consiste em uma serie de declaragoes de uma linha cada, 
poderia parecer natural ter um assembler que lesse uma declaragao, em seguida a traduzisse para linguagem de 
maquina e, por fim, passasse a linguagem de maquina gerada para um arquivo e, ao mesmo tempo, passasse a 
porgao correspondente da listagem, se houvesse alguma, para outro arquivo. Entao, esse processo seria repetido 
ate que todo o programa fosse transferido. Infelizmente, essa estrategia nao funciona. 

Considere a situagao em que a primeira declaragao seja um desvio para L. O assembler nao pode montar essa 
declaragao antes de saber o enderego da declaragao L. A declaragao L pode estar proxima ao final do programa, 
o que impossibilita ao assembler achar o enderego sem antes ler quase o programa inteiro. Essa dificuldade e 
denominada problema da referencia antecipada, porque um slmbolo, L, foi usado antes de ser definido, is to e, 
foi feita uma referencia a um slmbolo cuja definigao so ocorrera mais tarde. 

References antecipadas podem ser tratadas de duas maneiras. Na primeira, o assembler pode, de fato, ler o 
programa-fonte duas vezes. Cada leitura do programa-fonte e denominada passagem; qualquer tradutor que leia 
o programa de entrada duas vezes e denominado tradutor de duas passagens. Na passagem um, as definigoes 
de slmbolos, incluindo rotulos de declaragoes, sao coletadas e armazenadas em uma tabela. Quando a etapa dois 
comega, os valores de todos os slmbolos sao conhecidos; assim, nao resta nenhuma referencia antecipada e cada 
declaragao pode ser lida, montada e produzida. Embora essa tecnica exija uma passagem extra pela entrada, em 
termos de conceito ela e simples. 

A segunda abordagem consiste em ler o programa de montagem uma vez, converte-lo para uma forma inter¬ 
mediary e armazenar essa forma intermediary em uma tabela na memoria. Entao, e feita uma segunda passagem 
sobre a tabela, em vez de sobre o programa-fonte. Se houver memoria suficiente (ou memoria virtual), essa abor¬ 
dagem poupa tempo de E/S. Se for preciso produzir uma listagem, entao toda a declaragao-fonte, incluindo todos 
os comentarios, tern de ser salva. Se nao for preciso uma listagem, entao a forma intermediary pode ser reduzida 
ao mlnimo essencial. 

De qualquer modo, outra tarefa da passagem um e salvar todas as definigoes de macro e expandir as chama- 
das a medida que sao encontradas. Portanto, definir os slmbolos e expandir as macros em geral sao combinados 
em uma unica passagem. 

7.3.2 Passagem um 

A principal fungao da passagem um e montar uma tabela denominada tabela de slmbolos, que contem o 
valor de todos os slmbolos. Um slmbolo e um rotulo ou um valor ao qual e atribuldo um nome simbolico por 
meio de uma pseudoinstrugao, como 

BUFSIZE EQU 8192 

Ao atribuir um valor a um slmbolo no campo de rotulo de uma instrugao, o assembler tern de saber qual 
enderego aquela instrugao tera durante a execugao do programa. Para monitorar o enderego em tempo de exe- 
cugao da instrugao que esta sendo montada, o assembler mantem uma variavel durante a montagem, conhecida 
como ILC (Instruction Location Counter - contador de localizagao de instrugao). Ela e definida como 0 no 
inlcio da passagem um e incrementada pelo comprimento da instrugao para cada instrugao processada, conforme 
mostra a Figura 7.6. Esse exemplo e para o x86. 
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Figura 7.6 0 contador de localizacao de instrucao (ILC) monitora o endereco no qual as instrucoes serao carregadas na memoria. 
Neste exemplo, as dedaracoes antes de MARIA ocupam 100 bytes. 



A passagem um da maioria dos assemblers usa no mlnimo tres tabelas internas: a tabela de slmbolos, a de 
pseudoinstrugoes e a de opcodes. Se necessario, tambem e mantida uma tabela de literals. A tabela de slmbolos 
tem uma entrada para cada slmbolo, como ilustrado na Figura 7.7. Slmbolos sao definidos usando-os como rotu- 
los ou por definigao expllcita (por exemplo, EQU). Cada entrada da tabela de slmbolos contem o slmbolo em 
si (ou um ponteiro para ele), seu valor numerico e, as vezes, outras informagoes. Essas informagoes adicionais 
podem incluir: 

1. O comprimento do campo de dados associado com o slmbolo. 

2. Os bits de relocagao. (O slmbolo muda de valor se o programa for carregado em um enderego diferente 
daquele considerado pelo assembler ?) 

3. Se o slmbolo deve ser acesslvel ou nao fora do procedimento. 


Figura 7.7 


Tabela de simbolos para o programa da Figura 7.6. 


Sfmbolo 

Valor 

Outras informagoes 

MARIA 

100 


ROBERTA 

111 


MARILYN 

125 


STEPHANY 

129 



A tabela de opcodes contem pelo menos uma entrada para cada opcode (mnemonico) simbolico na linguagem 
de montagem. A Figura 7.8 mostra parte de uma tabela de opcodes. Cada entrada contem o opcode simbolico, dois 
operandos, o valor numerico do opcode , o comprimento da instrugao e um numero de tipo que separa os opcodes 
em grupos, dependendo do numero e tipo de operandos. 
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Figura 7.8 Alguns excertos da tabela de opcodes para um assembler x 86. 



Como exemplo, considere o opcode ADD. Se uma instrugao ADD contiver EAX como o primeiro operando e 
uma constante de 32 bits (immed32) como o segundo, entao e usado o opcode 0x05 e o comprimento da instrugao e 
de 5 bytes. (Constantes que podem ser expressas em 8 ou 16 bits usam opcodes diferentes, nao mostrados.) Se ADD 
for usada com dois registradores como operandos, a instrugao tern 2 bytes, com opcode 0x01. A classe de instrugao 
(arbitraria) 19 seria dada a todas as combinagoes opcode-o perando que seguissem as mesmas regras e devessem ser 
processadas do mesmo modo que ADD com dois operandos de registradores. A classe da instrugao designa efetiva- 
mente um procedimento dentro do assembler que e chamado para processar todas as instrugoes de um dado tipo. 

Alguns assemblers permitem que os programadores escrevam instrugoes usando enderegamento imediato, 
ainda que nao exista nenhuma instrugao correspondente na linguagem-alvo. Essas instrugoes “pseudoimediatas” 
sao manipuladas como a seguir. O assembler aloca memoria para o operando imediato no final do programa e 
gera uma instrugao que o referencia. Por exemplo, o mainframe IBM 360 e seus sucessores nao tern instrugoes 
imediatas. Nao obstante, programadores podem escrever 

L 14,=F’5’ 

para carregar o registrador 14 com uma constante de palavra inteira de valor 5. Desse modo, o programador 
evita escrever explicitamente uma pseudoinstrugao para alocar uma palavra com valor 5, dando-lhe um rotulo, e 
entao usar esse rotulo na instrugao L. Constantes para as quais o assembler reserva memoria automaticamente sao 
denominadas literals. Alem de poupar alguma escrita ao programador, as literais melhoram a legibilidade de um 
programa, tornando o valor da constante aparente na declaragao-fonte. A passagem um do assembler deve montar 
uma tabela com todas as literais usadas no programa. Todos os nossos tres exemplos de computador tern instru¬ 
goes imediatas, portanto, seus assemblers nao fornecem literais. Instrugoes imediatas sao bem comuns hoje em 
dia, mas antes nao eram. E provavel que a ampla utilizagao de literais deixou claro para os projetistas de maqui- 
nas que o enderegamento imediato era uma boa ideia. Se elas forem necessarias, uma tabela de literais e mantida 
durante a montagem, fazendo uma nova entrada toda vez que for encontrada uma literal. Apos a passagem um, 
essa tabela e ordenada e as entradas duplicadas sao removidas. 

A Figura 7.9 mostra um procedimento que poderia servir como base para a passagem um de um assembler. 
O estilo de programagao e digno de nota por si so. Os nomes de procedimentos foram escolhidos para dar uma 
boa indicagao do que estes fazem. O mais importante e que a Figura 7.9 representa um esbogo de passagem um 
que, embora nao seja completo, proporciona um bom ponto de partida. E curto o suficiente para ser entendido 
com facilidade e deixa claro qual e a etapa seguinte - a saber, escrever os procedimentos nele usados. 

Alguns desses procedimentos serao relativamente curtos, como check_Jor_symbol, que apenas retorna o sim- 
bolo como uma cadeia de caracteres se houver um slmbolo e null se nao houver. Outros, como get_length_of_typel 
e get_length_of_type2, podem ser mais longos e podem chamar outros procedimentos. Em geral, o numero de tipos 
nao sera dois, e claro, mas dependera da linguagem que esta sendo montada e de quantas instrugoes ela tern. 

Estruturar programas dessa maneira tern outras vantagens alem da facilidade de programagao. Se o assembler 
estiver sendo escrito por um grupo de pessoas, os varios procedimentos podem ser divididos entre os programado¬ 
res. Todos os detalhes (detestaveis) da obtengao de entrada estao ocultos em read_next_line. Se eles mudarem - por 
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exemplo, por causa de uma mudanga de sistema operacional apenas um procedimento subsidiario e afetado, e 
nao ha necessidade de alteragoes no procedimento pass_one em si. 

A medida que le o programa, a passagem um tern de analisar cada linha para achar o opcode (por exemplo, 
ADD), examinar seu tipo (basicamente o padrao de operandos) e calcular o comprimento da instrugao. Essas 
informagoes tambem sao necessarias na passagem dois, portanto, e posslvel escreve-las explicitamente para elimi- 
nar a necessidade de analisar a linha partindo do zero na proxima vez. Contudo, reescrever o arquivo de entrada 
provoca a ocorrencia de mais E/S. Se e melhor fazer mais E/S para eliminar analise ou menos E/S e fazer mais 
analise, isso depende das velocidades relativas da CPU e do disco, da eficiencia do sistema de arquivo e de outros 
fatores. Neste exemplo, vamos escrever um arquivo temporario que contem o tipo, o opcode , o comprimento e a 
propria linha de entrada. E essa linha que a passagem dois le em vez da entrada bruta do arquivo. 

Quando a pseudoinstrugao END e lida, a passagem um termina. A tabela de slmbolos e as tabelas de literais 
podem ser ordenadas nesse ponto, se necessario. A tabela de literais ordenadas pode ser verificada em busca de 
entradas duplas, que podem ser removidas. 


Figura 7.9 Passagem um de um assembler simples. 


public static void pass_one() { 

// Esse procedimento e um esbogo de passagem um para um assembler simples 


boolean morejnput = true; 

String line, symbol, literal, opcode; 
int location_counter, length, value, type; 
final int END_STATEMENT = -2; 

location_counter = 0; 
initialize_tables( ); 

while (morejnput) { 

line = read_nextjine( ); 
length = 0; 
type = 0; 

if (lineJs_not_comment(line)) { 
symbol = checkJor_symbol(line); 
if (symbol != null) 


// sinal que para a passagem um 
// campos da instrugao 
// variaveis diversas 
// sinaliza final da entrada 

// monta a primeira instrugao em 0 
// inicializagao geral 

// morejnput ajustada para falso por END 
// obtenha uma linha de entrada 
// # bytes na instrugao 
// de que tipo (formato) e a instrugao 

// essa linha e rotulada? 

// se for, registre sfmbolo e valor 


enter_new_symbol(symbol, location_counter); 
literal = checkjorjiteral(line); // a linha contem uma literal? 

if (literal != null) // se contiver, entre a linha na tabela 

enter_newjiteral(literal); 

//Agora determine o tipo de opcode. -1 significa opcode ilegal. 


opcode = extract_opcode(line); 
type = search_opcodeJable(opcode); 
if (type < 0) 

type = search_pseudoJable(opcode); 
switch(type) { 
case 1: length = getJength_ofJype1(line) 
case 2: length = getJength_ofJype2(line) 
// outros casos aqui 


// localize mnemonico do opcode 

// ache formato, por exemplo OP REG1 ,REG2 

// se nao for um opcode, e uma pseudoinstrugao? 

// determine o comprimento dessa instrugao 
break; 
break; 


writejempjile(type, opcode, length, line); // informagao util para a passagem dois 
location_counter = location_counter + length; //atualize loc_ctr 


if (type == ENDJ3TATEMENT) { 
morejnput = false; 
rewind Jem pJor_passJwo( ); 
sortJiteralJable( ); 
remove_redundantJiterals( ); 


// terminamos a entrada? 

// se terminamos, execute tarefas de preparo 
// tais como rebobinar o arquivo temporario 
// e ordenar a tabela de literais 
// e remover literais duplicadas 
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7.3.3 Passagem dois 

A fungao da passagem dois e gerar o programa-objeto e talvez imprimir a listagem de montagem. Alem disso, 
a passagem dois deve produzir certas informagoes de que o ligador ( linker ) necessita para ligar procedimentos 
montados em tempos diferentes em um unico arquivo executavel. A Figura 7.10 mostra um rascunho de um 
procedimento para passagem dois. 


Figura 7.10 


Passagem dois de um assembler simples. 


public static void pass_two() { 

// Esse procedimento e um esbogo de passagem dois para um assembler simples, 
boolean morejnput = true; // sinal que para a passagem dois 

String line, opcode; // campos da instrugao 

int location_counter, length, type; // variaveis diversas 

final int END_STATEMENT = -2; // sinaliza final da entrada 

final int MAX_CODE = 16; // maximo de bytes de codigo por instrugao 

byte code[ ] = new byte[MAX_CODE]; //contem codigo gerado por instrugao 


location_counter = 0; 


// monta a primeira instrugao em 0 


while (morejnput) { 
type = readjype(); 
opcode = read_opcode( ); 
length = readjength( ); 
line = readjine( ); 


// morejnput ajustada para falso por END 
// obtem campo de tipo da proxima linha 
// obtem campo de opcode da proxima linha 
// obtem comprimento de campo da proxima linha 
// obtem a linha de entrada propriamente dita 


if (type != 0) { // tipo 0 e para linhas de comentario 

switch(type) { // gerar o codigo de safda 

case 1: evaljypel(opcode, length, line, code); break; 
case 2: evalJype2(opcode, length, line, code); break; 

// outros casos aqui 


write_output(code); // escreva o codigo binario 

writejistingfcode, line); // imprima uma linha na listagem 

location_counter = location_counter + length; // atualize loc_ctr 
if (type == ENDJ3TATEMENT) { // terminamos a entrada? 

morejnput = false; // se terminamos, execute tarefas de manutengao 

finish_up( ); // execute tarefas de manutengao gerais e termine 

} 



A operagao de passagem dois e mais ou menos semelhante a da passagem um: ela le as linhas uma por vez e 
as processa. Visto que escrevemos o tipo, o opcode e o comprimento no inlcio de cada linha (no arquivo tempo- 
rario), tudo isso e lido para poupar um pouco de analise. O trabalho principal da geragao de codigo e realizado 
pelos procedimentos evcd_typel , eval_type2 e assim por diante. Cada um manipula um padrao particular, tal como 
um opcode e dois operandos de registrador. Gera o codigo binario para a instrugao, retorna-o em code e entao ele 
e escrito. O mais provavel e que write_output apenas acumule o codigo binario em um buffer e escreva o arquivo 
no disco em grandes porgoes para reduzir o trafego. 

A declaragao-fonte original e o codigo-objeto dela gerado, em hexadecimal, podem entao ser impressos ou 
colocados em um buffer para impressao posterior. Apos o ILC ser ajustado, a proxima declaragao e buscada. 

Ate agora, admitimos que o programa-fonte nao contenha erro algum. Qualquer um que ja tenha escrito um 
programa, em qualquer linguagem, sabe como essa suposigao e irreal. Alguns dos erros mais comuns sao: 
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1. Um slmbolo foi usado, mas nao definido. 

2. Um slmbolo foi definido mais de uma vez. 

3. O nome no campo de opcode nao e um opcode valido. 

4. Um opcode e fornecido com um numero insuficiente de operandos. 

5. Um opcode e fornecido com um numero demasiado de operandos. 

6. Um numero contem um caractere invalido, como 143G6. 

7. Utilizagao ilegal de registrador (por exemplo, um desvio para um registrador). 

8. A declaragao END esta faltando. 

Programadores sao muito engenhosos quando se trata de achar novos tipos de erros para cometer. Erros de 
slmbolos nao definidos muitas vezes sao causados por erros de digitagao, portanto, um assembler esperto poderia 
tentar entender qual dos slmbolos definidos e mais parecido com o slmbolo nao definido e usa-lo em seu lugar. 
Pouco pode ser feito para corrigir a maioria dos outros erros. A melhor coisa que um assembler pode fazer com 
uma declaragao errada e imprimir uma mensagem de erro e tentar continuar a montagem. 

7.3.4 Tabela de slmbolos 

Durante a passagem um do processo de montagem, o assembler acumula informagoes sobre slmbolos e seus 
valores que devem ser armazenadas na tabela de slmbolos para consulta durante a passagem dois. Ha varios 
modos diferentes disponiveis para organizar a tabela de slmbolos. Logo adiante, descreveremos alguns de modo 
breve. Todos eles ten tarn simular uma memoria associativa que, em termos conceituais, e um conjunto de pares 
(simbolo, valor). Dado o simbolo, a memoria associativa deve produzir o valor. 

A tecnica de implementagao mais simples e, de fato, executar a tabela de simbolos como um arranjo de pares, 
cujo primeiro elemento e (ou aponta para) o simbolo e cujo segundo elemento e (ou aponta para) o valor. Dado 
um slmbolo para procurar, a rotina da tabela de slmbolos apenas pesquisa linha por linha ate achar um slmbolo 
compativel. Esse metodo e facil de programar, porem e lento porque, na media, metade da tabela tera de ser 
pesquisada em cada consulta. 

Outro modo de organizar a tabela de slmbolos e ordenar por simbolos e usar o algoritmo de busca binaria 
para procurar um slmbolo. Esse algoritmo funciona comparando a entrada do meio da tabela com o slmbolo. 
Se ele vier antes da entrada do meio, em ordem alfabetica, deve estar localizado na primeira metade da tabela. Se 
vier apos a entrada do meio, deve estar na segunda metade da tabela. Se o simbolo for igual a entrada do meio, 
a busca termina. 

Considerando que a entrada do meio nao seja igual ao simbolo procurado, ao menos sabemos em qual meta¬ 
de da tabela procura-lo. Agora, a busca binaria pode ser aplicada a metade correta, o que resultara ou em uma 
compatibilidade ou no quarto correto da tabela. Utilizando aplicagao recursiva do algoritmo, uma tabela com 
tamanho de n entradas pode ser pesquisada em cerca de log 2 n tentativas. E obvio que esse modo e muito mais 
rapido do que a pesquisa linear, mas requer manter a tabela ordenada. 

Um modo completamente diferente de simular uma memoria associativa e uma tecnica conhecida como codifi- 
cagao hash ou hashing. Essa abordagem requer uma fungao “hash” que mapeia simbolos para inteiros na faixa de 0 
a k - 1. Uma fungao possivel e multiplicar os codigos ASCII dos caracteres presentes nos simbolos, ignorar o vai-um 
e tomar o modulo da divisao k resultante ou dividi-lo por um numero primo. Na verdade, quase qualquer fungao 
da entrada que der uma distribuigao uniforme de valores de hash servira. Simbolos podem ser armazenados em uma 
tabela que consista em k partigoes numeradas de 0 a k - 1. Todos os pares (slmbolo, valor) cujo slmbolo resultar em 
i apos a operagao de hash sao armazenados em uma lista encadeada que e apontada pela posigao i na tabela de hash. 
Com n simbolos e k posigoes na tabela de hash , a lista media tera comprimento n/k. Escolhendo k mais ou menos 
igual a n, os simbolos podem ser localizados com cerca de apenas uma consulta em media. Ajustando k, podemos 
reduzir o tamanho da tabela a custa de consultas mais lentas. A codificagao hash e ilustrada na Figura 7.11. 
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Figura 7.11 Codificacao hash, (a) Simbolos, valores e os codigos hash derivados. (b) Tabela hash de oito entradas com listas encadeadas 
de simbolos e valores. 


Andy 

14025 

0 

Anton 

31253 

4 

Cathy 

65254 

5 

Dick 

54185 

0 

Erik 

47357 

6 

Frances 

56445 

3 

Frank 

14332 

3 

Gerrit 

32334 

4 

Hans 

44546 

4 

Henri 

75544 

2 

Jan 

17097 

5 

Jaco 

64533 

6 

Maarten 

23267 

0 

Reind 

63453 

1 

Roel 

76764 

7 

Willem 

34544 

6 

Wiebren 

34344 

1 


(a) 


Tabela 

de hash Tabela encadeada 


0 


h: 

Andy 

14025 

I 

+-H 

Maarten 

| 23267 

FFHI 

Dick 

| 54185 

1 


h 

Reind 

| 63453 

L 

zH-L 

Wiebren 

| 34344 

LJ 



2 


H 

Henri 

| 75544 

J 

J 






3 


H 

Frances 

| 56445 

J 

zk-L 

Frank 

14332 

n 



4 


H_ 

Hans 

| 44546 

L 

+H 

Gerrit 

| 32334 

UH. 

Anton 

| 31253 

5 


H_ 

Jan 

17097 

L 

+H 

Cathy 

| 65254 

LJ 



6 


H 

Jaco 

| 64533 

L 

H-H 

Willem 

| 34544 

LzW_ 

Erik 

| 47357 | | 

7 


H 

Roel 

| 76764 

L 

J 







(b) 


7.4 Ligacao e carregamento 

A maioria dos programas consiste em mais de um procedimento. Em geral, compiladores e assemblers 
traduzem um procedimento por vez e colocam a salda traduzida em disco. Antes que um programa possa 
ser executado, todos os procedimentos traduzidos devem ser encontrados e interligados adequadamente. Se 
nao houver memoria virtual disponlvel, o programa ligado deve ser carregado tambem na memoria principal. 
Programas que executam essas fungoes tern varios nomes, entre eles ligador, carregador de ligagao e editor de 
ligagao. A tradugao completa de um programa-fonte requer duas etapas, como mostra a Figura 7.12: 

1. Compilagao ou montagem dos procedimentos-fonte. 

2. Ligagao de modulos-objeto. 


A primeira etapa e executada pelo compilador ou assembler e a segunda e realizada pelo ligador. 
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Figura 7.12 A geracao de um programa binario executavel a partir de um conjunto de procedimentos-fonte traduzidos independentemente 
requer a utilizacao de um ligador. 



A tradugao de procedimento-fonte para modulo-objeto representa uma mudanga de nlvel porque a lin- 
guagem-fonte e a linguagem-alvo tem instrugoes e notagao diferentes. O processo de ligagao, entretanto, nao 
representa uma mudanga de nlvel, ja que a entrada, bem como a salda do ligador, sao programas para a mesma 
maquina virtual. A fungao do ligador e reunir procedimentos traduzidos em separado e liga-los uns aos outros 
para que sejam executados como uma unidade denominada programa binario executavel. Em sistemas Windows, 
os modulos-objeto tem a extensao .obj e os programas binarios executaveis tem extensao .exe. Em UNIX, os 
modulos-objeto tem extensao .o; programas binarios executaveis nao tem extensao. 

Compiladores e assemblers traduzem cada procedimento-fonte como uma entidade separada por uma boa 
razao. Se um compilador ou assembler tivesse de ler uma serie de procedimentos-fonte e produzir de imediato 
um programa em linguagem de maquina pronto para executar, alterar uma unica declaragao em um unico pro¬ 
cedimento-fonte exigiria que todos os procedimentos-fonte fossem traduzidos de novo. 

Se for utilizada a tecnica de modulo-objeto separado mostrada na Figura 7.12, basta traduzir outra vez o 
procedimento modificado, e nao os que nao foram alterados, embora seja necessario religar todos os modulos- 
-objeto de novo. Todavia, normalmente a ligagao e muito mais rapida do que a tradugao; por isso, esse processo 
de duas etapas de tradugao e ligagao pode poupar grande quantidade de tempo durante o desenvolvimento de 
um programa. Esse ganho e de especial importancia para programas que tem centenas de milhares de modulos. 

7.4.1 Tarefas realizadas pelo ligador 

No inicio da passagem um do processo de montagem, o contador de localizagao de instrugao esta definido 
em 0. Essa etapa equivale a admitir que o modulo-objeto estara localizado no enderego (virtual) 0 durante a exe¬ 
cugao. A Figura 7.13 mostra quatro modulos-objeto para uma maquina generica. Nesse exemplo, cada modulo 
comega com uma instrugao BRANCH para uma instrugao MOVE dentro do modulo. 

Para executar o programa, o ligador traz os modulos-objeto para a memoria principal para formar a imagem 
do programa binario executavel, conforme mostra a Figura 7.14(a). A ideia e fazer uma imagem exata do espago de 
enderego virtual do programa executavel dentro do ligador e posicionar todos os modulos-objeto em suas localizagoes 
corretas. Se nao houver memoria (virtual) suficiente para formar a imagem, pode-se usar um arquivo em disco. Em 
geral, uma pequena segao da memoria com inicio no enderego zero e usada para vetores de interrupgao, comunica- 
gao com o sistema operacional, captura de ponteiros nao inicializados ou outras finalidades, portanto, os programas 
costumam comegar acima de 0. Nessa figura, iniciamos os programas, arbitrariamente, no enderego 100. 

O programa da Figura 7.14(a), embora carregado para a imagem do arquivo binario executavel, ainda nao esta 
pronto para execugao. Considere o que aconteceria se a execugao comegasse com a instrugao no inicio do modulo A. 
O programa nao desviaria para a instrugao MOVE como deveria, porque essa instrugao agora esta em 300. Na ver- 
dade, todas as instrugoes de referenda a memoria falhariam pela mesma razao. E claro que algo tem de ser feito. 
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Figura 7.13 


Cada modulo tem seu proprio espaco de endereco com infcio em 0. 


Modulo-objeto A 


400 


300 

CALL B 



200 

MOVE P TO X 

100 


0 

BRANCH TO 200 


Modulo-objeto C 

500 


400 

CALL D 

300 


200 

MOVE R TO X 

100 


0 

BRANCH TO 200 


Modulo-objeto B 



Esse problema, denominado problema da relocagao, ocorre porque cada modulo-objeto na Figura 7.13 
representa um espago de enderego separado. Em uma maquina com espago de enderego segmentado, como o x86, 
em teoria, cada modulo-objeto poderia ter seu proprio espago de enderego em seu proprio segmento. Contudo, o 
OS/2 e o unico sistema operacional para o x86 que suporta esse conceito. Todas as versoes de Windows e UNIX 
suportam apenas um espago de enderego linear, portanto, os modulos-objeto devem ser fundidos em um unico 
espago de enderego. 

Alem do mais, as instrugoes de chamada de procedimento na Figura 7.14(a) tambem nao funcionarao. No 
enderego 400, o programador pretendia chamar o modulo-objeto B, porem, como cada procedimento e traduzido 
sozinho, o assembler nao tem meios de saber qual enderego inserir na instrugao CALL B. O enderego do modulo- 
-objeto B nao e conhecido ate o momento da ligagao. Este e denominado problema da referenda externa. Ambos 
os problemas que acabamos de citar podem ser resolvidos de maneira simples pelo ligador. 

O ligador funde os espagos de enderegos separados dos modulos-objeto em um unico espago de enderego 
linear, conforme as quatro etapas seguintes: 

1. Ele constroi uma tabela de todos os modulos-objeto e seus comprimentos. 

2. Com base nessa tabela, o ligador designa um enderego de inlcio a cada modulo-objeto. 

3. Ele acha todas as instrugoes que referenciam a memoria e adiciona a cada uma delas uma constante de 
relocagao igual ao enderego de inlcio de seu modulo. 

4. Ele acha todas as instrugoes que referenciam outros procedimentos e insere os enderegos desses pro- 
cedimentos no lugar adequado. 
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Figura 7.14 (a) Os modulos-objeto da Figura 7.13 apos o posicionamento na imagem 
Os mesmos modulos-objeto apos a ligacao e apos a relocacao. 
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A tabela de modulos-objeto construlda na etapa 1 e mostrada para os modulos da Figura 7.14 a seguir. Ela 
da o nome, o comprimento e o enderego de inlcio de cada modulo. 
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Modulo 

Comprimento 

Enderego de infcio 

A 

400 

100 

B 

600 

500 

C 

500 

1.100 

D 

300 

1.600 


A Figura 7.14(b) mostra o aspecto do espago de enderego da Figura 7.14(a) apos o ligador ter realizado 
essas etapas. 


7.4.2 Estrutura de um modulo-objeto 

Modulos-objeto costumam conter seis partes, como mostra a Figura 7.15. A primeira parte contem o nome 
do modulo, certas informagoes de que o ligador precisa, como os comprimentos das varias partes do modulo, e, 
as vezes, a data de montagem. 


Figura 7.15 


Estrutura interna de um modulo-objeto produzido por um tradutor. 0 campo Identificacao vem em primeiro lugar. 


Final do modulo 


Dicionario de relocagao 
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A segunda parte do modulo-objeto e uma lista dos simbolos definidos no modulo que outros modulos 
podem referenciar, acompanhados de seus valores. Por exemplo, se o modulo consistir em um procedimento 
denominado bigbug, a tabela de pontos de entrada contera a cadeia de caracteres “ bigbug ”, acompanhada do 
enderego ao qual ela corresponde. Um programador de linguagem de montagem indica quais simbolos devem ser 
declarados como pontos de entrada usando uma pseudoinstrugao como PUBLIC na Figura 7.2. 

A terceira parte do modulo-objeto consiste em uma lista dos simbolos que sao usados no modulo, mas que 
sao definidos em outros, junto com uma lista das instrugoes de maquinas que usam cada slmbolo. O ligador pre¬ 
cisa dessa ultima lista para poder inserir os enderegos corretos nas instrugoes que usam simbolos externos. Um 
procedimento pode chamar outros procedimentos traduzidos independentemente, declarando como externos os 
nomes dos procedimentos chamados. O programador de linguagem de montagem indica quais simbolos devem 
ser declarados como simbolos externos usando uma pseudoinstrugao como EXTERN na Figura 7.2. Em alguns 
computadores, pontos de entrada e referencias externas sao combinados em uma unica tabela. 

A quarta parte do modulo-objeto sao o codigo montado e as constantes. Essa parte e a unica que sera car- 
regada na memoria para ser executada. As outras cinco partes serao usadas pelo ligador para ajuda-lo a fazer seu 
trabalho e entao serao descartadas antes do inlcio da execugao. 
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A quinta parte do modulo-objeto e o dicionario de relocagao. Como mostra a Figura 7.14, instrugoes que 
contem enderegos de memoria devem ser somadas a uma constante de relocagao. Visto que o ligador nao tem 
nenhum meio de determinar, por inspegao, quais das palavras de dados na parte quatro contem instrugoes de 
maquina e quais contem constantes, a informagao sobre quais enderegos devem ser relocados e dada nessa tabela. 
A informagao pode tomar a forma de uma tabela de bits, com 1 bit por enderego que tem possibilidade de ser 
relocado, ou uma lista explicita de enderegos que deverao ser relocados. 

A sexta parte e uma marca qualquer de final de modulo, talvez uma soma de verificagao para pegar erros 
enquanto le o modulo no qual deve comegar a execugao. 

A maioria dos ligadores requer duas passagens. Na passagem um, o ligador le todos os modulos-objeto e 
constroi uma tabela de nomes e comprimentos de modulos, bem como uma global de slmbolos, que contem todos 
os pontos de entrada e references externas. Na passagem dois, os modulos-objeto sao lidos, relocados e ligados, 
um modulo por vez. 

7.4.3 Tempo de vinculacao e relocacao dinamica 

Em um sistema com multiprogramagao, um programa pode ser lido para a memoria principal, executar 
durante algum tempo, ser escrito para o disco, e entao lido de volta para a memoria principal para ser executado 
de novo. Em um sistema de grande porte, com muitos programas, e diflcil garantir que um programa seja lido de 
volta para as mesmas localizagoes toda vez. 

A Figura 7.16 mostra o que aconteceria se o programa ja relocado da Figura 7.14(b) fosse recarregado no 
enderego 400 em vez de no 100, onde o ligador o colocou de inlcio. Todos os enderegos de memoria estao incor- 
retos; alem do mais, a informagao de relocagao ha muito foi descartada. Mesmo que a informagao de relocagao 
ainda estivesse disponlvel, o custo de ter de relocar todos os enderegos toda vez que o programa fosse chaveado 
seria muito alto. 

O problema de mover programas que foram ligados e relocados esta relacionado muito de perto com o 
momento em que a vinculagao final de nomes simbolicos a enderegos de memoria flsicos absolutos e conclulda. 
Quando um programa e escrito, ele contem nomes simbolicos para enderegos de memoria, por exemplo, BR L. 
O momento em que e determinado o enderego da memoria principal correspondente a L e denominado tempo 
de vinculagao. Ha pelo menos seis possibilidades para o momento de vinculagao: 

1. Quando o programa e escrito. 

2. Quando o programa e traduzido. 

3. Quando o programa e ligado, mas antes de ser carregado. 

4. Quando o programa e carregado. 

5. Quando um registrador de base usado para enderegamento e carregado. 

6. Quando a instrugao que contem o enderego e executada. 

Se uma instrugao que contem um enderego de memoria for movida apos a vinculagao, ela sera incorreta (con- 
siderando que o objeto ao qual se refere tambem foi movido). Se o tradutor produzir um binario executavel como 
salda, a vinculagao ocorreu durante o tempo da tradugao e o programa deve ser executado no enderego em que o 
tradutor esperava que fosse. O metodo de ligagao descrito na segao anterior vincula nomes simbolicos a enderegos 
absolutos durante a ligagao, e e por isso que mover programas apos a ligagao falha, conforme mostra a Figura 7.16. 

Ha dois assuntos relacionados envolvidos aqui. Primeiro, ha a questao do momento em que nomes simbo¬ 
licos sao ligados a enderegos virtuais. Segundo, ha a questao do momento em que enderegos virtuais sao ligados 
a enderegos flsicos. A vinculagao esta conclulda apenas quando ambas as operagoes tiverem ocorrido. Quando 
o ligador funde os espagos de enderegos separados dos modulos-objeto em um unico espago de enderego linear, 
na verdade ele esta criando um espago de enderego virtual. A relocagao e a ligagao servem para vincular nomes 
simbolicos a enderegos virtuais especlficos. Essa observagao e verdadeira quer a memoria virtual esteja sendo 
utilizada ou nao. 
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Figura 7.16 


Programa binario relocado da Figura 7.14(b) movido 300 enderecos para cima. Muitas instrucoes agora se referem a um 
endereco de memoria incorreto. 
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Considere, por enquanto, que o espago de enderego da Figura 7.14(b) fosse paginado. E claro que os endere- 
gos virtuais correspondentes aos nomes simbolicos A, B, C e D ja foram determinados, mesmo que seus enderegos 
flsicos de memoria principal ainda dependam do conteudo da tabela de paginas no momento em que forem usa- 
dos. Na realidade, um programa binario executavel e uma vinculagao de nomes simbolicos a enderegos virtuais. 

Qualquer mecanismo que permita que o mapeamento de enderegos virtuais para enderegos de memoria fisi- 
ca seja trocado com facilidade tambem facilitara a movimentagao de programas pela memoria principal, mesmo 
depois de aqueles enderegos terem sido ligados a um espago de enderego virtual. Um desses mecanismos e a 
paginagao. Apos a movimentagao de um programa na memoria principal, somente sua tabela de paginas precisa 
ser alterada, e nao o programa em si. 
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Um segundo mecanismo e a utilizagao de um registrador de relocagao em tempo de execugao. O CDC 6600 e 
seus sucessores tinham um registrador desses. Em maquinas que usam essa tecnica de relocagao, o registrador sem- 
pre aponta para o enderego de memoria fisica do inlcio do programa corrente. O hardware acrescenta o registrador 
de relocagao a todos os enderegos de memoria antes de envia-los a memoria. Todo o processo de relocagao e trans- 
parente para os programas do usuario - eles nem sabem o que esta ocorrendo. Quando um programa e movido, o 
sistema operacional deve atualizar o registrador de relocagao. Esse mecanismo e menos geral do que a paginagao 
porque o programa inteiro deve ser movido como uma unidade (a menos que haja registradores de relocagao de 
dados e de codigo separados, como no Intel 8088, caso em que ele tern de ser movido como duas unidades). 

Um terceiro mecanismo e posslvel em maquinas que podem referenciar a memoria relativa em relagao ao 
contador de programa. Muitas instrugoes de desvio sao relativas ao contador de programa, o que ajuda. Sempre 
que um programa e movido na memoria principal, so o contador de programa precisa ser atualizado. Um pro¬ 
grama no qual todas as references a memoria ou sao relativas ao contador de programa ou sao absolutas (por 
exemplo, a registradores de dispositivos de E/S em enderegos absolutos) e denominado independente de posigao. 
Um procedimento independente de posigao pode ser colocado em qualquer lugar dentro do espago de enderego 
virtual sem necessidade de relocagao. 

7.4.4 Ligacao dinamica 

A estrategia de ligagao discutida na Segao 7.4.1 tern a propriedade de que todos os procedimentos que um 
programa poderia chamar sao ligados antes que este inicie a execugao. Em um computador com memoria vir¬ 
tual, concluir toda a ligagao antes de iniciar a execugao nao aproveita todas as capacidades da memoria virtual. 
Muitos programas tern procedimentos que sao chamados apenas em circunstancias fora do comum. Por exemplo, 
compiladores tern procedimentos para compilar declaragoes raramente usadas, alem de procedimentos para tratar 
condigoes de erro que ocorrem raramente. 

Um modo mais flexivel de ligar procedimentos compilados em separado e ligar cada procedimento no 
momento em que ele e chamado pela primeira vez. Esse processo e denominado ligagao dinamica. O pioneiro em 
sua utilizagao foi o MULTICS, cuja implementagao, em certos aspectos, ainda e insuperavel. Nas segoes seguintes, 
estudaremos a ligagao dinamica em varios sistemas. 

• Ligacao dinamica em MULTICS 

Na forma MULTICS de ligagao dinamica, ha um segmento associado a cada programa, denominado segmento 
de ligagao, que content um bloco de informagoes para cada procedimento que poderia ser chamado. Esse bloco 
comega com uma palavra reservada para o enderego virtual do procedimento e e seguida pelo nome do procedi¬ 
mento, que e armazenado como uma cadeia de caracteres. 

Quando a ligagao dinamica esta sendo usada, chamadas de procedimento na linguagem-fonte sao traduzidas 
para instrugoes que enderegam indiretamente a primeira palavra do bloco de ligagao correspondente, conforme 
mostra a Figura 7.17(a). O compilador preenche essa palavra com um enderego invalido ou com um padrao de 
bits especial que forga uma excegao. 

Quando e chamado um procedimento que esta em um segmento diferente, a tentativa de enderegar a palavra 
invalida indiretamente causa uma excegao para o ligador dinamico. Entao, este acha a cadeia de caracteres na 
palavra que vem apos o enderego invalido e pesquisa o diretorio de arquivos do usuario em busca de um procedi¬ 
mento compilado com esse nome. Depois, e atribuldo um enderego virtual a esse procedimento, quase sempre em 
seu proprio segmento privado, e esse enderego virtual sobrescreve o enderego invalido no segmento de ligagao, 
como indicado na Figura 7.17(b). Em seguida, a instrugao que causou a falha de ligagao e executada novamente, 
o que permite ao programa continuar de onde estava antes da excegao. 

Todas as references subsequentes a esse procedimento serao executadas sem causar falha de ligagao, porque 
a palavra indireta agora content um enderego virtual valido. Por conseguinte, o ligador virtual e invocado somente 
na primeira vez em que um procedimento e chamado. 
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Figura 7.17 Ligacao dinamica. (a) Antes de EARTH ser chamado. (b) Apos EARTH ser chamado e ligado. 


Um segmento 



Um segmento 



' Para EARTH 


(b) 


• Ligacao dinamica no Windows 

Todas as versoes do sistema operacional Windows, incluindo NT, suportam ligagao dinamica e dependem 
muito dela. A ligagao dinamica usa um formato de arquivo especial denominado DLL (Dynamic Link Library - 
biblioteca de ligagao dinamica). DLLs podem conter procedimentos, dados ou ambos. Elas sao usadas para per- 
mitir que dois ou mais processos compartilhem procedimentos de biblioteca ou dados. Muitas DLLs tern extensao 
.dll mas tambem ha outras extensoes em uso, incluindo .dry (para biblioteca de drivers ) e .fan (para bibliotecas 
de fontes tipograficas). 
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A forma mais comum de uma DLL e uma biblioteca que consiste em um conjunto de procedimentos que podem 
ser carregados na memoria e acessados por varios processos ao mesmo tempo. A Figura 7.18 ilustra dois programas 
que compartilham um arquivo DLL que contem quatro procedimentos, A, B, C e D. O programa 1 usa o procedi- 
mento A; o programa 2 usa o procedimento C, embora pudessem sem problemas ter usado o mesmo procedimento. 


Figura 7.18 Utilizacao de um arquivo DLL por dois processos. 


Processo de usuario 1 Processo de usuario 2 



Uma DLL e construlda pelo ligador a partir de um conjunto de arquivos de entrada. Na verdade, construir 
um arquivo DLL e muito parecido com construir um programa binario executavel, exceto que e dado um sina- 
lizador especial ao ligador para informa-lo que deve fazer uma DLL. DLLs costumam ser construldas a partir 
de conjuntos de procedimentos de biblioteca que provavelmente serao necessarios para multiplos processos. 
Os procedimentos de interface para a biblioteca de chamadas e para as grandes bibliotecas graficas do sistema 
Windows sao exemplos comuns de DLLs. A vantagem de usar DLLs e poupar espago na memoria e em disco. 
Se alguma biblioteca de uso comum fosse ligada estaticamente a cada programa que a utiliza, ela apareceria em 
muitos binarios executaveis no disco e na memoria, desperdigando espago. Com DLLs, cada biblioteca aparece 
apenas uma vez em disco e uma vez na memoria. 

Alem de poupar espago, essa tecnica facilita a atualizagao de procedimentos de biblioteca, mesmo depois que 
os programas que as estao usando tenham sido compilados e ligados. No caso de pacotes de softwares comerciais, 
em que e raro os usuarios terem o codigo-fonte, usar DLLs significa que o fabricante do software pode eliminar 
os bugs nas bibliotecas distribuindo novos arquivos DLL pela Internet, sem precisar fazer quaisquer alteragoes 
nos programas binarios principais. 

A principal diferenga entre uma DLL e um binario executavel e que uma DLL nao pode ser iniciada e execu- 
tada por si propria (porque nao tern programa principal). Ela tambem tern informagoes diferentes no cabegalho. 
Ademais, a DLL como um todo tern varios procedimentos extras que nao sao relacionados com os na biblioteca. 
Por exemplo, ha um procedimento que e chamado sempre que um novo processo e vinculado a DLL, e outro que 
e chamado sempre que um processo e desvinculado dela. Esses procedimentos podem alocar e desalocar memoria 
ou gerenciar outros recursos de que a DLL necessita. 

Ha dois modos de um programa se vincular a uma DLL. No primeiro, denominado ligagao impllcita, o pro¬ 
grama usuario esta ligado estaticamente a um arquivo especial denominado biblioteca de importagao, que e gera- 
do por um programa utilitario que extrai certas informagoes da DLL. A biblioteca de importagao fornece o vinculo 
que permite ao programa usuario acessar a DLL. Um programa usuario pode ser ligado a varias bibliotecas de 
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importagao. Quando um programa que usa ligagao impllcita e carregado na memoria para execugao, o Windows 
o examina para ver quais DLLs ele usa e verifica se todas elas ja estao na memoria. As que nao estao sao carre- 
gadas de imediato (mas nao necessariamente inteiras, visto que sao paginadas). Em seguida, sao feitas algumas 
alteragoes nas estruturas de dados nas bibliotecas de importagao, para que os procedimentos chamados possam 
ser localizados, de modo parecido com as mudangas mostradas na Figura 7.17. Elas tambem tern de ser mapeadas 
para o espago de enderego virtual do programa. Nesse ponto, o programa usuario esta pronto para executar e pode 
chamar os procedimentos que estao nas DLLs como se eles estivessem estaticamente vinculados a ele. 

A alternativa a ligagao impllcita e (sem nenhuma surpresa) a ligagao expllcita. Essa tecnica nao requer 
bibliotecas de importagao e nao faz as DLLs serem carregadas ao mesmo tempo que o programa usuario. Em vez 
disso, o programa usuario faz uma chamada expllcita durante o tempo de execugao para se vincular a uma DLL 
e, em seguida, faz chamadas adicionais para obter os enderegos dos procedimentos de que necessita. Uma vez 
encontrados, o programa usuario pode chamar os procedimentos. Apos tudo isso, ele faz uma chamada final para 
se desvincular da DLL. Quando o ultimo processo se desvincula de uma DLL, esta pode ser removida da memoria. 

E importante entender que um procedimento em uma DLL nao tern qualquer identidade propria (como 
acontece com um thread ou um processo). Ele executa no thread chamador e usa a pilha do chamador para suas 
variaveis locais. Pode ter dados estaticos especlficos de processo (bem como dados compartilhados) e, quanto ao 
mais, se comporta do mesmo modo que um procedimento ligado estaticamente. A unica diferenga essencial e o 
modo como a vinculagao e realizada. 

• Ligacao dinamica no UNIX 

O sistema UNIX tern um mecanismo que e, em essentia, semelhante as DLLs no Windows, denominado 
biblioteca compartilhada. Como um arquivo DLL, uma biblioteca compartilhada e um arquivamento que contem 
varios procedimentos ou modulos de dados que estao presentes na memoria durante o tempo de execugao e que 
podem ser vinculados a varios processos ao mesmo tempo. A biblioteca padrao C e grande parte do codigo de 
rede sao bibliotecas compartilhadas. 

O UNIX suporta apenas ligagao impllcita, portanto, uma biblioteca compartilhada consiste em duas partes: 
uma biblioteca hospedeira, ligada estaticamente com o arquivo executavel, e uma biblioteca-alvo, que e chamada 
durante a execugao. Embora os detalhes sejam diferentes, os conceitos sao os mesmos que os das DLLs. 


7.5 Resumo 

Embora a maioria dos programas pudesse e devesse ser escrita em uma linguagem de alto nivel, existem 
situagoes nas quais e necessaria uma linguagem de montagem, ao menos em parte. Programas para computadores 
portateis pobres em recursos, tais como smart cards, processadores embutidos em eletrodomesticos e agendas 
digitais portateis sem fio sao candidatos potenciais. Um programa em linguagem de montagem e uma represen- 
tagao simbolica para algum programa subjacente em linguagem de maquina. Ele e traduzido para a linguagem de 
maquina por um programa denominado assembler. 

Quando a execugao extremamente rapida e crltica para o sucesso de alguma aplicagao, uma abordagem 
melhor do que escrever tudo em linguagem de montagem e primeiro escrever todo o programa em uma lingua- 
gem de alto nivel, entao medir onde ele esta gastando seu tempo e, por fim, reescrever somente as partes do pro¬ 
grama que sao muito usadas. Na pratica, em geral uma pequena fragao do codigo e responsavel por uma grande 
fragao do tempo de execugao. 

Muitos assemblers tern um recurso de macro que permite ao programador dar nomes simbolicos a sequencias 
de codigo muito usadas para inclusao subsequente. Em geral, essas macros podem ser parametrizadas de modo 
direto. Macros sao executadas por um tipo de algoritmo de processamento literal de cadeias. 

A maioria dos assemblers e de duas passagens. A passagem um e dedicada a montar uma tabela de slmbolos 
para rotulos, literais e identificadores especificamente declarados. Os slmbolos podem ser mantidos sem orde- 
nagao e entao pesquisados linha por linha, ou primeiro ordenados e depois pesquisados usando busca binaria, 
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ou passar por uma operagao de hash. Se nao for preciso apagar os slmbolos durante a passagem um, o hashing 
costuma ser o melhor metodo. A passagem dois faz a geragao de codigo. Algumas pseudoinstrugoes sao executa- 
das na passagem um e algumas na passagem dois. 

Programas montados de modo independente podem ser interligados para formar um programa binario 
executavel que pode ser executado. Esse trabalho e feito pelo ligador. Suas principais tarefas sao relocagao e vin- 
culagao de nomes. Ligagao dinamica e uma tecnica na qual certos procedimentos so sao ligados quando forem 
chamados. As DLLs do Windows e as bibliotecas compartilhadas do UNIX usam ligagao dinamica. 


Problemas 

1. Para certo programa, 2% do codigo e responsavel 
por 50% do tempo de execugao. Compare o tempo 
de programagao e o tempo de execugao para as tres 
estrategias seguintes. Considere que levaria 100 
homens-mes para escreve-los em C, e que o codigo 
de montagem e 10 vezes mais lento para escrever e 
quatro vezes mais eficiente. 

a. Todo o programa em C. 

b. Todo o programa em assembler. 

c. Primeiro todo em C e, entao, os 2% fundamen- 
tais reescritos em assembler. 

2. As consideragoes validas para assemblers de duas 
passagens tambem valem para compiladores? 

a. Considere que os compiladores produzem modu- 
los-objeto, e nao codigo de montagem. 

b. Considere que os compiladores produzem lin- 
guagem de montagem simbolica. 

3. A maioria dos assemblers para as CPUs Intel consi- 
dera os enderegos de destino como o primeiro ope- 
rando e o enderego-fonte como o segundo operando. 
Quais problemas teriam de ser resolvidos para fazer 
isso na ordem inversa? 

4. O programa a seguir pode ser montado em duas 
passagens? EQU e uma pseudoinstrugao que iguala o 
rotulo a expressao no campo do operando. 

P EQU Q 
Q EQU R 
R EQU S 
S EQU 4 

5. A Dirtcheap Software Company esta planejando pro- 
duzir um assembler para um computador com uma 
palavra de 48 bits. Para manter os custos baixos, 
o gerente de projeto, Dr. Sovina, decidiu limitar o 
comprimento dos simbolos permitidos de modo que 
cada slmbolo possa ser armazenado em uma unica 
palavra. Sovina declarou que os simbolos so podem 
conter letras, exceto a letra Q, que e proibida (para 
demonstrar aos clientes sua preocupagao com a 


eficiencia). Qual e o comprimento maximo de um 
simbolo? Descreva seu esquema de codificagao. 

6. Qual e a diferenga entre uma instrugao e uma pseu¬ 
doinstrugao? 

7. Qual e a diferenga entre contador de localizagao de 
instrugao e o contador de programa (se e que ha 
alguma)? Afinal, ambos monitoram a proxima ins¬ 
trugao em um programa. 

8. Mostre a tabela de simbolos depois que as seguin¬ 
tes declaragoes x86 foram encontradas. A primeira 
declaragao e designada para o enderego 1.000. 


EVEREST: 

POP BX 

(1 BYTE) 

K2: 

PUSH BP 

(1 BYTE) 

WHITNEY: 

MOV BP,SP 

(2 BYTES) 

MCKINLEY: 

PUSH X 

(3 BYTES) 

FUJI: 

PUSH SI 

(1 BYTE) 

KIBO: 

SUB SI,300 

(3 BYTES) 


9. Voce pode imaginar circunstancias nas quais uma 
linguagem de montagem permite que um rotulo seja 
o mesmo que um opcode (por exemplo, MOV como 
um rotulo)? Desenvolva sua resposta. 

10. Mostre as etapas necessarias para pesquisar Ann 
Arbor usando busca binaria na seguinte lista: Ann Arbor, 
Berkeley, Cambridge, Eugene, Madison, New Haven, 
Palo Alto, Pasadena, Santa Cruz, Stony Brook, Westwood 
e Yellow Springs. Ao calcular o elemento do meio de 
uma lista quando ha um numero par de elementos, use 
o elemento que vem logo apos o indice do meio. 

11. E possivel usar busca binaria em uma tabela cujo 
tamanho e um numero primo? 

12. Calcule o codigo hash para cada um dos seguintes 
simbolos somando as letras (A = 1, B = 2 etc.) e con- 
siderando o modulo da soma dividida pelo tamanho 
da tabela de hash. Essa tabela tern 19 posigoes nume- 
radas de 0 a 18. 

els, jan, jelle, maaike 
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Cada simbolo gera um unico valor de hash ? Se nao 
gerar, como pode ser resolvido um problema de colisao? 

13. O metodo de codificagao hash descrito no texto liga 
todas as entradas que tem o mesmo codigo de hash 
em uma lista encadeada. Um metodo alternativo e ter 
somente uma tabela de n posigoes e cada posigao da 
tabela ter espago para uma unica chave e seu valor 
(ou ponteiros para elas). Se o algoritmo de hash 
gerar uma posigao que ja esta cheia, e feita uma nova 
tentativa usando um segundo algoritmo de hash. Se 
a nova posigao gerada tambem estiver cheia, e usado 
mais um algoritmo e assim por diante, ate que se 
encontre uma posigao vazia. Se a fragao de posigoes 
cheias for R, quantas tentativas serao necessarias, em 
media, para registrar um novo simbolo? 

14. A medida que a tecnologia progride, talvez um dia 
seja posslvel colocar milhares de CPUs identicas em 
um chip, cada uma com algumas palavras de memo- 
ria local. Se todas as CPUs puderem ler e escrever 
tres registradores compartilhados, como uma memo- 
ria associativa pode ser implementada? 

15. O x86 tem uma arquitetura segmentada com varios 
segmentos independentes. Um assembler para essa 
maquina poderia perfeitamente ter uma pseudoins- 
trugao SEG N que comandaria o assembler a colocar 
codigo e dados subsequentes no segmento N. Esse 
esquema tem alguma influencia sobre o ILC? 

16. E frequente que os programas estejam ligados a 
varias DLLs. Nao seria mais eficiente colocar todos 
os procedimentos em uma grande DLL e entao fazer 
a ligagao com ela? 

17. Uma DLL pode ser mapeada para os espagos de ende- 
rego virtual de dois processos em enderegos virtuais 
diferentes? Se for possivel, quais problemas surgi- 
riam? Eles podem ser resolvidos? Se nao for possivel, 
o que pode ser feito para elimina-los? 

18. Um modo de fazer ligagao (estatica) e o seguinte: 
antes de percorrer a biblioteca, o ligador monta uma 
lista de procedimentos necessarios, isto e, nomes 


definidos como EXTERN nos modulos que estao 
sendo ligados. Entao, o ligador percorre a bibliote¬ 
ca linearmente, extraindo todo procedimento que 
estiver na lista de nomes necessarios. Esse esquema 
funciona? Caso nao funcione, diga por que e como 
isso pode ser remediado. 

19. Um registrador pode ser usado como parametro pro- 
priamente dito em uma chamada de macro? E uma 
constante? Explique as razoes por que pode ou por 
que nao pode. 

20. Voce tem de implementar uma macro assembler. Por 
questao de estetica, seu chefe decidiu que definigoes 
de macro nao precisam preceder suas chamadas. 
Quais sao as implicagoes dessa decisao sobre a 
implementagao? 

21. Pense em uma maneira de colocar uma macro assem¬ 
bler em um lago infinito. 

22. Um ligador le cinco modulos, cujos comprimentos 
sao de 200, 800, 600, 500 e 700 palavras, respectiva- 
mente. Se forem carregados nessa ordem, quais sao 
as constantes de relocagao? 

23. Escreva um pacote de tabela de slmbolos que 
consista em duas rotinas: enter (symbol, value ) e 
loohup(symbol, value). A primeira registra novos sim- 
bolos na tabela e a ultima os consulta. Use alguma 
forma de codificagao hash. 

24. Repita o problema anterior, mas, desta vez, em vez de 
usar uma tabela de hash, apos a inclusao do ultimo 
simbolo, ordene a tabela e use um algoritmo de busca 
binaria para encontrar simbolos. 

25. Escreva um assembler simples para o computador 
Mic-1 do Capitulo 4. Alem de manipular as instru- 
goes de maquina, fornega um recurso para atribuir 
constantes a simbolos em tempo de montagem e um 
modo de montar uma constante em uma palavra de 
maquina. Estas deverao ser pseudoinstrugoes, claro. 

26. Adicione um recurso de macro simples ao assembler 
do problema anterior. 
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E mbora os computadores continuem a ficar cada vez mais rapidos, as demandas impostas a eles estao cres¬ 
cendo no mlnimo com a mesma rapidez. Astronomos querem simular toda a historia do universo, desde 
o big bang ate o final do espetaculo. Cientistas farmaceuticos adorariam projetar em seus computadores 
medicamentos por encomenda para doengas especlficas, em vez de ter de sacrificar legioes de ratos. Projetistas de 
aeronaves poderiam inventar produtos mais eficientes no consumo de combustlvel se os computadores pudessem 
fazer todo o trabalho sem a necessidade de construir prototipos flsicos para testar em tuneis aerodinamicos. Em 
suma, seja qual for a capacidade de computagao disponlvel, para muitos usuarios, em especial nas areas da cien- 
cia, engenharia e industrial, ela nunca sera suficiente. 

Embora as velocidades de clock continuem subindo, velocidades de circuitos nao podem aumentar indefi- 
nidamente. A velocidade da luz ja e um grande problema para projetistas de computadores de alta tecnologia, e 
as perspectivas de conseguir que eletrons e fotons se movam com maior rapidez sao desanimadoras. Questoes de 
dissipagao de calor estao transformando supercomputadores em condicionadores de ar de ultima geragao. Por 
fim, como o tamanho dos transistores continua a diminuir, chegara um ponto em que cada transistor tera um 
numero tao pequeno de atomos dentro dele que os efeitos da mecanica quantica (por exemplo, o princlpio da 
incerteza de Heisenberg) podem se tornar um grande problema. 

Portanto, para enfrentar problemas cada vez maiores, os arquitetos de computadores estao recorrendo cada 
vez mais a computadores paralelos. Apesar de talvez nao ser posslvel construir uma maquina com uma unica CPU 
e um tempo de ciclo de 0,001 ns, pode ser perfeitamente viavel produzir uma com 1.000 CPUs com um tempo 
de ciclo de 1 ns cada. Embora esse ultimo projeto use CPUs mais lentas do que o primeiro, sua capacidade total de 
computagao e teoricamente a mesma. E e aqui que reside a esperanga. 
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O paralelismo pode ser introduzido em varios nlveis. No nlvel mais baixo, ele pode ser adicionado ao chip 
da CPU, por pipeline e projetos superescalares com varias unidades funcionais. Tambem pode ser adicionado por 
meio de palavras de instrugao muito longas com paralelismo impllcito. Caracterlsticas especiais podem ser adi- 
cionadas a CPU para permitir que ela manipule multiplos threads de controle ao mesmo tempo. Por fim, varias 
CPUs podem ser reunidas no mesmo chip. Juntas, essas caracterlsticas podem equivaler, talvez, a um fator de 10 
vezes em desempenho em relagao a projetos puramente sequenciais. 

No nlvel seguinte, placas extras de CPU com capacidade de processamento adicional podem ser acrescen- 
tadas a um sistema. Em geral, essas CPUs de encaixe tern fungoes especializadas, tais como processamento de 
pacotes de rede, processamento de multimldia ou criptografia. No caso de fungoes especializadas, o fator de ganho 
tambem pode ser de, talvez, 5 a 10. 

Contudo, para conseguir um fator de cem, de mil, ou de milhao, e necessario replicar CPUs inteiras e fazer 
que todas elas funcionem juntas com eficiencia. Essa ideia leva a grandes multiprocessadores e multicomputa- 
dores (computadores em cluster ). Neme preciso dizer que interligar milhares de processadores em um grande 
sistema gera seus proprios problemas, que precisam ser resolvidos. 

Por fim, agora e posslvel envolver organizagoes inteiras pela Internet e formar grades de computagao fraca- 
mente acopladas. Esses sistemas estao apenas comegando a surgir, mas tern um potencial interessante para o futuro. 

Quando duas CPUs ou dois elementos de processamento estao perto um do outro, tern aha largura de banda, 
o atraso entre eles e baixo e sao muito proximos em termos computacionais, diz-se que sao fortemente acopla- 
dos. Por outro lado, quando estao longe um do outro, tern baixa largura de banda e alto atraso e sao remotos 
em termos computacionais, diz-se que sao fracamente acoplados. Neste capitulo, vamos examinar os princlpios 
de projeto para essas varias formas de paralelismo e estudar variados exemplos. Comegaremos com os sistemas 
mais fortemente acoplados, os que usam paralelismo no chip, passaremos aos poucos para sistemas cada vez 
mais fracamente acoplados, e concluiremos com alguns comentarios sobre computagao em grade. Esse espectro 
e ilustrado em linhas gerais na Figura 8.1. 

Toda a questao do paralelismo, de uma extremidade do espectro a outra, e um topico de pesquisa muito atual 
e concorrido. Por isso, daremos um numero muito maior de references neste capitulo, de preference a artigos 
recentes sobre o assunto. Muitas conferences e periodicos tambem publicam artigos sobre o assunto, e a literatura 
esta crescendo rapidamente. 


Figura 8.1 (a) Paralelismo no chip, (b) Coprocessador. (c) Multiprocessador. (d) Multicomputador. (e) Grade. 
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8.1 Paralelismo no chip 

Um modo de aumentar a produtividade de um chip e conseguir que ele faga mais coisas ao mesmo tempo. 
Em outras palavras, explorar o paralelismo. Nesta segao, vamos estudar alguns modos de conseguir aumentar a 
velocidade por meio do paralelismo no nivel do chip, incluldos paralelismo no nlvel da instrugao, multithreading 
e a colocagao de mais de uma CPU no chip. Essas tecnicas sao bem diferentes, mas cada uma delas ajuda a sua 
propria maneira. Mas, em todos os casos, a ideia e conseguir que mais atividades acontegam ao mesmo tempo. 

8.1.1 Paralelismo no nivel da instrucao 

Um modo de conseguir paralelismo no nivel mais baixo e emitir multiplas instrugoes por ciclo de clock. Ha 
duas variedades de CPUs de emissao multipla: processadores superescalares e processadores VLIW. Na verdade, 
ja comentamos alguma coisa sobre essas duas no livro, mas talvez seja util revisar aqui esse material. 

Vimos CPUs superescalares antes (por exemplo, na Figura 2.5). Na configuragao mais comum, em certo 
ponto do pipeline ha uma instrugao pronta para ser executada. CPUs superescalares sao capazes de emitir multi¬ 
plas instrugoes para as unidades de execugao em um unico ciclo de clock. O numero real de instrugoes emitidas 
depende do projeto do processador, bem como das circunstancias correntes. O hardware determina o numero 
maximo que pode ser emitido, em geral duas a seis instrugoes. Contudo, se uma instrugao precisar de uma uni- 
dade funcional que nao esta disponlvel ou de um resultado que ainda nao foi calculado, ela nao sera emitida. 

A outra forma de paralelismo no nivel da instrugao e encontrada em processadores VLIW (Very Long 
Instruction Word - palavra de instrugao muito longa). Na forma original, maquinas VLIW de fa to tinham 
palavras longas que continham instrugoes que usavam multiplas unidades funcionais. Considere, por exemplo, 
o pipeline da Figura 8.2(a), no qual a maquina tern cinco unidades funcionais e pode efetuar, simultaneamente, 
duas operagoes com inteiros, uma operagao de ponto flutuante, um carregamento e um armazenamento. Uma 
instrugao VLIW para essa maquina conteria cinco opcodes e cinco pares de operandos, um opcode e um par de 
operandos por unidade funcional. Com 6 bits por opcode , 5 bits por registrador e 32 bits por enderego de memo- 
ria, as instrugoes poderiam facilmente ter 134 bits - bem compridas, de fa to. 

Contudo, esse projeto revelou ser muito rlgido porque nem toda instrugao podia utilizar todas as unidades 
funcionais, o que resultava em muitas NO-OP inuteis usadas como filtro, como ilustrado na Figura 8.2(b). Por 
conseguinte, modernas maquinas VLIW tern um modo de marcar um grupo de instrugoes que formam um con- 
junto com um bit de “final de grupo”, conforme mostra a Figura 8.2(c). Entao, o processador pode buscar o grupo 
inteiro e emiti-lo de uma vez so. Cabe ao compilador preparar grupos de instrugoes compatlveis. 

Na verdade, VLIW transfere do tempo de execugao para o tempo de compilagao o trabalho de determinar 
quais instrugoes podem ser emitidas em conjunto. Essa opgao nao apenas simplifica o hardware e o torna mais 
rapido, mas tambem, vis to que um compilador otimizador pode funcionar durante um longo tempo se for preciso, 
permite que se montem pacotes melhores do que o hardware poderia montar durante o tempo de execugao. E 
claro que tal mudanga radical na arquitetura da CPU sera diflcil de introduzir, como demonstra a lenta aceitagao 
do Itanium, exceto para aplicagoes de nicho. 

Vale a pena observar que o paralelismo no nivel da instrugao nao e a unica forma de paralelismo de baixo 
nivel. Outra forma e o paralelismo no nivel da memoria, no qual ha multiplas operagoes de memoria no ar ao 
mesmo tempo (Chou et al., 2004). 

• A CPU VLIW TriMedia 

Estudamos um exemplo de uma CPU VLIW, a Itanium-2, no Capltulo 5. Agora, vamos examinar um 
processador VLIW muito diferente, o TriMedia, projetado pela Philips, a empresa holandesa de equipamentos 
eletronicos que tambem inventou o CD de audio e o CD-ROM. A utilizagao pretendida do TriMedia e como um 
processador embutido em aplicagoes que fazem uso intensivo de imagem, audio e video, como reprodutores de 
CD, DVD e players MP3, gravadores de CD e DVD, televisores interativos, cameras digitais, filmadoras e assim 
por diante. Dadas essas areas de aplicagao, nao e surpresa que ele seja consideravelmente diferente da Itanium-2, 
que e uma CPU de uso geral, voltada para servidores de alta tecnologia. 
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Figura 8.2 (a) Pipeline de CPU. (b) Sequencia de instrucoes VLIW. (c) Fluxo de instrucoes com pacotes marcados. 




Grupo 


O TriMedia e um verdadeiro processador VLIW, no qual todas as instrugoes contem ate cinco operagoes. Em 
condigoes completamente ideais, a cada ciclo de clock e iniciada uma instrugao e sao emitidas cinco operagoes. O 
clock funciona a 266 MHz ou 300 MHz; porem, como ele pode emitir cinco operagoes por ciclo, a velocidade efe- 
tiva de clock e cinco vezes mais alta. Na discussao a seguir, focalizaremos a implementagao TM3260 do TriMedia; 
as diferengas em relagao a outras versoes sao muito pequenas. 

Uma instrugao tlpica e ilustrada na Figura 8.3. As instrugoes variam de instrugoes padroes de inteiros de 8, 16 
e 32 bits, passando por aquelas de ponto flutuante IEEE 754, ate as de multimldia paralela. Como consequencia das 
cinco emissoes por ciclo e das instrugoes de multimldia paralela, o TriMedia e rapido o suficiente para decodificar 
video digital de uma filmadora em tempo real em tamanho total e taxa de quadros total em software. 

O TriMedia tern uma memoria baseada em bytes, e os registradores de E/S sao mapeados para o espago de memo- 
ria. Meias-palavras (16 bits) e palavras completas (32 bits) devem ser alinhadas em suas fronteiras naturais. Ela pode 
funcionar como little-endian ou big-endian , dependendo de um bit PSW que o sistema operacional pode ajustar. Esse 
bit afeta somente o modo com que as operagoes de carga e as de armazenamento transferem dados entre memoria 
e registradores. A CPU contem uma cache dividida de 8 vias de conjuntos associativos com tamanho de linha de 64 
bytes para a cache de instrugoes, bem como para a de dados. A cache de instrugoes e de 64 KB; a de dados e de 16 KB. 


Figura 8.3 Instrucao TriMedia tfpica, mostrando cinco operacoes possiveis. 
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Ha 128 registradores de uso geral de 32 bits. O registrador R0 e travado com valor 0. O registrador R1 e travado 
em 1. Tentar mudar qualquer um deles provoca um ataque cardlaco na CPU. Os 126 registradores restantes sao 
todos equivalentes em termos funcionais e podem ser utilizados para qualquer finalidade. Alem disso, ha tambem 
quatro registradores de uso especial de 32 bits: o contador de programa, a palavra de estado de programa e dois 
registradores relacionados a interrupgoes. Por fim, um registrador de 64 bits conta o numero de ciclos de CPU 
desde sua ultima reinicializagao. A 300 MHz, o contador leva cerca de dois mil anos para dar uma volta completa e 
reiniciar o ciclo de contagem. 

O Trimedia TM3260 tern 11 unidades funcionais diferentes para efetuar operagoes aritmeticas, logicas e de 
controle de fluxo (bem como uma para controle de cache que nao discutiremos aqui). Elas estao relacionadas na 
Figura 8.4. As duas primeiras colunas dao o nome da unidade e uma breve descrigao do que ela faz. A terceira 
informa quantas copias da unidade existem em hardware. A quarta da a latencia, isto e, quantos ciclos de clock 
ela leva para concluir. Nesse contexto, vale a pena observar que todas as unidades funcionais, exceto a unidade 
de ponto flutuante de raiz quadrada/divisao, tern paralelismo. A latencia dada na tabela informa quanto tempo 
falta para o resultado de uma operagao estar disponlvel, mas uma nova operagao pode ser iniciada a cada ciclo. 
Assim, por exemplo, cada uma das tres instrugoes consecutivas pode conter duas operagoes de carregamento, o 
que resulta em seis carregamentos em varios estagios de execugao ao mesmo tempo. 

Por fim, as ultimas cinco colunas mostram quais posigoes de instrugao podem ser utilizadas por qual uni¬ 
dade funcional. Por exemplo, operagoes de comparagao de ponto flutuante devem aparecer somente na terceira 
posigao de uma instrugao. 


Figura 8.4 Unidades funcionais da TM3260, sua quantidade, latencia e as posicoes de instrucao que usam. 



A unidade de constante e usada para operagoes imediatas, como carregar em um registrador um numero 
armazenado na propria operagao. A ULA de inteiros efetua adigao, subtragao, as operagoes booleanas normais e 
operagoes de empacotamento/desempacotamento. O deslocador ( shifter ) pode mover um registrador em qualquer 
diregao por um numero especificado de bits. 

A unidade de Load/Store (carregamento/armazenamento) traz palavras da memoria para dentro de regis¬ 
tradores e as escreve de volta na memoria. O TriMedia e, na essencia, uma CPU RISC aumentada, portanto, 
operagoes normais sao efetuadas em registradores e a unidade de Load/Store e usada para acessar a memoria. 
Transferences podem ser de 8, 16 ou 32 bits. Instrugoes aritmeticas e logicas nao acessam a memoria. 
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A unidade de multiplicagao efetua multiplicagoes de inteiros e de ponto flutuante. As tres unidades 
seguintes efetuam, na ordem, adigoes/subtragoes, comparagoes, e raiz quadrada e divisoes de ponto flutuante. 

Operagoes de desvio sao executadas pela unidade de desvio. Ha um atraso fixo de 3 ciclos apos um des- 
vio, portanto, as tres instrugoes (ate 15 operagoes) que vem apos um desvio sao sempre executadas, mesmo 
para desvios incondicionais. 

Por fim, chegamos as duas unidades de multimldia, que executam as operagoes especiais de multimldia. O 
DSP no nome da unidade funcional refere-se a Digital Signal Processor (processador de sinal digital) que, na 
verdade, as operagoes de multimldia substituem. Mais adiante, faremos uma breve descrigao das operagoes de 
multimldia. Um aspecto digno de nota e que todas elas utilizam aritmetica saturada em vez de aritmetica de com- 
plemento de dois usada pelas operagoes com inteiros. Quando uma operagao produz um resultado que nao pode 
ser expresso por causa de excesso, em vez de gerar uma excegao ou dar resultado lixo, e usado o numero valido 
mais proximo. Por exemplo, com numeros de 8 bits sem sinal, somar 130 com 130 da 255. 

Como nem toda operagao pode aparecer em toda posigao, muitas vezes acontece de uma instrugao 
nao conter todas as cinco operagoes potenciais. Quando uma posigao nao e usada, ela e compactada para 
minimizar a quantidade de espago desperdigada. Operagoes que estao presentes ocupam 26, 34 ou 42 bits. 
Dependendo do numero de operagoes que de fato estao presentes, as instrugoes TriMedia variam entre 2 e 
28 bytes, incluindo algum cabegalho fixo. 

O TriMedia nao verifica durante a execugao se as operagoes um uma instrugao sao compatlveis. Se nao 
forem, ele as executa mesmo assim e obtem a resposta errada. Deixar a verificagao de fora foi uma decisao 
deliberada para poupar tempo e transistores. O Core i7 faz verificagao em tempo de execugao para ter certeza 
de que todas as operagoes superescalares sao compatlveis, mas a um custo imenso em termos de complexidade, 
tempo e transistores. O TriMedia evita esse custo passando a carga do escalonamento para o compilador, que 
tern todo o tempo do mundo para otimizar com cuidado o posicionamento de operagoes em palavras de instru¬ 
gao. Por outro lado, se uma operagao precisar de uma unidade funcional que nao esta disponlvel, a instrugao 
protelara ate que ela fique disponlvel. 

Como na Itanium-2, as operagoes do TriMedia sao predicadas. Cada operagao (com duas pequenas exce- 
goes) especifica um registrador que e testado antes de ser executada. Se o bit de ordem baixa do registrador 
estiver marcado (valor 1), a operagao e executada; caso contrario, ela e saltada. Cada uma das (ate) cinco 
operagoes e predicada individualmente. Um exemplo de uma operagao predicada e 

IF R2 IADD R4, R5 -> R8 

que testa R2 e, se o bit de ordem baixa for 1, soma R4 com R5 e armazena o resultado em R8. Uma operagao 
pode ser transformada em incondicional usando R1 (que e sempre 1) como o registrador de predicado. Usar 
R0 (que e sempre 0) a transforma em uma no-op. 

As operagoes multimldia do TriMedia podem ser agrupadas nos 15 grupos relacionados na Figura 8.5. 
Muitas das operagoes envolvem clipping (corte), que especifica um operando e uma faixa e obriga o operan- 
do a entrar na faixa usando os valores mais baixo ou mais alto para operandos que caem fora da faixa. O 
clipping pode ser feito em operandos de 8, 16 ou 32 bits. Por exemplo, quando o clipping e realizado dentro 
de uma faixa de 0 a 255 sobre 40 e 340, os resultados cortados sao 40 e 255, respectivamente. O grupo clip 
efetua operagoes de corte. 

Os quatro grupos seguintes da Figura 8.5 efetuam a operagao indicada com operandos de varios tama- 
nhos, cortando os resultados para ajusta-los a uma faixa especifica. O grupo mlnimo, maximo examina dois 
registradores e acha o maior e o menor valor para cada byte. De modo semelhante, o grupo comparagao 
considera dois registradores como quatro pares de bytes e compara cada par. 

E raro que operagoes de multimldia sejam efetuadas com inteiros de 32 bits porque a maioria das 
imagens e composta de pixels RGB com valores de 8 bits para cada uma das cores vermelha, verde e azul. 
Quando uma imagem esta sendo processada - por exemplo, comprimida -, ela e em geral representada por 
tres componentes, um para cada cor (espago RGB) ou por uma forma equivalente em termos logicos (espago 
YUV, que sera discutido mais adiante neste capitulo). De qualquer modo, muito processamento e executado 
em arranjos retangulares que content inteiros de 8 bits sem sinal. 



442 


Organizacao estruturada de computadores 


Figura 8.5 Principais grupos de operates que vem com o TriMedia. 


Grupo 

Descricao 

Clip 

Corta 4 bytes ou 2 meias-palavras 

Valor absoluto DSP 

Valor cortado, com sinal, absoluto 

Adigao DSP 

Adigao cortada, com sinal 

Subtragao DSP 

Subtragao cortada, com sinal 

Multiplicagao DSP 

Multiplicagao cortada, com sinal 

Mfnimo, maximo 

Obtem mfnimo ou maximo de pares de quatro bytes 

Comparagao 

Compara dois registradores byte por byte 

Deslocamento 

Desloca um par de operandos de 16 bits 

Soma de produtos 

Soma, com sinal, produtos de 8 ou 16 bits 

Merge, pack, swap 

Manipulagao de bytes e meias-palavras 

Medias quadraticas de byte 

Media quadrupla, sem sinal, byte por byte 

Medias de byte 

Media de quatro elementos, sem sinal, byte por byte 

Multiplicagoes de byte 

Multiplicagao, sem sinal, de 8 bits 

Estimativa de movimento 

Soma, sem sinal, de valores absolutos de diferengas de 8 bits com sinal 

Diversos 

Outras operagoes aritmeticas 


O TriMedia tem um grande numero de operagoes projetadas especificamente para o processamento eficiente 
de matrizes de inteiros de 8 bits sem sinal. Como um exemplo simples, considere o canto superior esquerdo de 
uma matriz de valores de 8 bits armazenados em memoria ( big-endian ), como ilustra a Figura 8.6(a). O bloco 4x4 
mostrado nesse canto contem 16 valores de 8 bits rotulados de A ate P. Suponha, por exemplo, que a imagem precisa 
ser transposta, para produzir a Figura 8.6(b). Como essa tarefa deve ser realizada? 


Figura 8.6 (a) Matriz de elementos de 8 bits, (b) Matriz transposta. (c) Matriz original buscada em quatro registradores. (d) Matriz trans¬ 
posta em quatro registradores. 
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' Registrador de 32 bits 
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Um modo de fazer a transposigao e usar 12 operagoes, cada qual carregando um byte em um registrador 
diferente, seguidas de mais 12 operagoes, cada qual armazenando um byte em sua localizagao correta. ( Nota: os 
quatro bytes na diagonal nao sao movidos na transposigao.) O problema dessa abordagem e que ela requer 24 
operagoes (longas e lentas) que referenciam a memoria. 
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Uma abordagem alternativa e comegar com quatro operagoes, cada qual carregando uma palavra dentro de 
quatro registradores diferentes, R2 a R5, como mostra a Figura 8.6(c). Entao, as quatro palavras produzidas sao 
montadas por operagoes de mascaramento e deslocamento para conseguir a salda desejada, conforme mostra a 
Figura 8.6(d). Por fim, essas palavras sao armazenadas na memoria. Embora esse modo de fazer a transposigao 
reduza o numero de referencias a memoria de 24 para 8, o mascaramento e o deslocamento sao caros por causa 
das muitas operagoes requeridas para extrair e inserir cada byte na posigao correta. 

O TriMedia proporciona uma solugao melhor do que essas duas. Ela comega trazendo as quatro palavras para 
registradores. Todavia, em vez de construir a salda usando mascaramento e deslocamento, sao utilizadas opera- 
goes especiais que extraem e inserem bytes em registradores para construir a salda. O resultado e que, com oito 
referencias a memoria e oito dessas operagoes especiais de multimldia, pode-se realizar a transposigao. Primeiro, 
o codigo contem uma operagao com duas operagoes de carregamento nas posigoes 4 e 5, para carregar palavras 
em R2 e R3, seguida por outra operagao como essa para carregar R4 e R5. 

As instrugoes que contem essas operagoes podem usar as posigoes 1, 2 e 3 para outras finalidades. Quando 
todas as palavras forem carregadas, as oito operagoes especiais de multimldia podem ser empacotadas em duas 
instrugoes para construir a salda, seguidas por duas operagoes para armazena-las. No total, sao necessarias apenas 
seis instrugoes, e 14 das 30 posigoes nessas instrugoes ficam disponlveis para outras operagoes. Na verdade, todo 
o trabalho pode ser realizado com o equivalente efetivo a cerca de tres instrugoes. Outras operagoes de multiml¬ 
dia sao igualmente eficientes. Entre essas operagoes poderosas e as cinco posigoes de emissao por instrugao, o 
TriMedia e muito eficiente para efetuar os tipos de calculos necessarios em processamento de multimldia. 

8.1.2 Multithreading no chip 

Todas as CPUs modernas, com paralelismo (pipeline), tern um problema inerente: quando uma referenda a 
memoria encontra uma ausencia das caches de nlvel 1 e nlvel 2, ha uma longa espera ate que a palavra requisitada 
(e sua linha de cache associada) sejam carregadas na cache , portanto, o pipeline para. Uma abordagem para lidar 
com essa situagao, denominada multithreading no chip, permite que a CPU gerencie multiplos threads de controle 
ao mesmo tempo em uma tentativa de mascarar essas protelagoes. Em suma, se o thread 1 estiver bloqueado, a 
CPU ainda tern uma chance de executar o thread 2, de modo a man ter o hardware totalmente ocupado. 

Embora a ideia basica seja bastante simples, existem multiplas variantes, que examinaremos agora. A primeira 
abordagem, multithreading de granulagao fina, e ilustrada na Figura 8.7 para uma CPU que tern a capacidade de 
emitir uma instrugao por ciclo de clock. Na Figura 8.7(a)-(c), vemos tres threads, A, B e C, para 12 ciclos de maquina. 
Durante o primeiro ciclo, o thread A executa a instrugao Al. Essa instrugao conclui em um ciclo, portanto, no segun- 
do, a instrugao A2 e iniciada. Infelizmente, essa instrugao encontra uma ausencia de cache de nlvel 1, portanto, dois 
ciclos sao desperdigados enquanto a palavra necessaria e buscada na cache de nlvel 2. O thread continua no ciclo 5. 
De modo semelhante, os threads B e C tambem protelam por vezes, como ilustrado na figura. Nesse modelo, se uma 
instrugao protelar, as subsequentes nao podem ser emitidas. E claro que, mesmo com uma tabela de escalonamento 
mais sofisticada, as vezes podem ser emitidas novas instrugoes, mas, nesta discussao, vamos ignorar tal possibilidade. 


Figura 8.7 (a)-(c) Tres threads. Os retangulos vazios indicam que o thread parou esperando por memoria. (d) Multithreading de granula- 
cao fina. (e) Multithreading de granulacao grossa. 
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O multithreading de granulagao fina mascara as protelagoes executando os threads segundo uma polltica de 
alternancia circular, com um thread diferente em ciclos consecutivos, como ilustrado na Figura 8.7(d). Quando 
chega o quarto ciclo, a operagao de memoria iniciada em A1 foi conclulda, portanto, a instrugao A2 pode ser 
executada, ainda que necessite do resultado de Al. Nesse caso, a protelagao maxima e dois ciclos, portanto, com 
tres threads , a operagao protelada sempre e conclulda a tempo. Se uma protelagao de memoria demorasse quatro 
ciclos, precisarlamos de quatro threads para garantir a operagao contlnua e assim por diante. 

Uma vez que threads diferentes nada tern a ver um com o outro, cada um precisa de seu proprio conjunto 
de registradores. Quando uma instrugao e emitida, e preciso incluir, com ela, um ponteiro para seu conjunto, de 
modo que, se um registrador for referenciado, o hardware sabera qual conjunto de registradores usar. Por conse- 
guinte, o numero maximo de threads que podem ser executados de uma vez so e fixado na ocasiao em que o chip 
e projetado. 

Operagoes de memoria nao sao a unica razao para protelagao. As vezes, uma instrugao precisa de um resul¬ 
tado calculado por uma instrugao anterior que ainda nao foi conclulda. As vezes, uma instrugao nao pode iniciar 
porque ela vem apos um desvio condicional cuja diregao ainda nao e conhecida. Em geral, se o pipeline tiver k 
estagios, mas houver no mlnimo k threads para fazer alternancia circular, nunca havera mais de uma instrugao 
por thread no pipeline a qualquer momento, portanto, nao pode ocorrer nenhum conflito. Nessa situagao, a CPU 
pode executar na velocidade total, sem nunca ficar ociosa. 

E claro que pode nao haver tantos threads disponlveis quantos sao os estagios do pipeline , portanto, alguns 
projetistas preferem uma abordagem diferente, conhecida como multithreading de granulagao grossa, ilustrada 
na Figura 8.7(e). Nesse caso, o thread A inicia e continua a emitir instrugoes ate protelar, desperdigando um ciclo. 
Nesse ponto, ocorre uma troca e B1 e executado. Visto que a primeira instrugao do thread B protela, acontece 
outra troca de thread e Cl e executado no ciclo 6. Como se perde um ciclo sempre que uma instrugao protela, 
o multithreading de granulagao grossa e potencialmente menos eficiente do que o de granulagao fina, mas tern a 
grande vantagem de precisar de um numero muito menor de threads para manter a CPU ocupada. Em situagoes 
em que ha um numero insuficiente de threads ativos, para garantir que sera encontrado um que pode ser execu¬ 
tado, o multithreading de granulagao grossa funciona melhor. 

Embora tenhamos demonstrado que o multithreading de granulagao grossa troca threads quando ha uma 
protelagao, essa nao e a unica opgao. Outra possibilidade e trocar de imediato em qualquer instrugao que poderia 
acarretar uma protelagao, tal como uma instrugao de carregamento, armazenamento ou desvio, antes mesmo de 
descobrir se ela de fa to causa isso. Essa ultima estrategia permite que uma troca ocorra mais cedo (tao logo a 
instrugao seja decodificada) e pode possibilitar evitar ciclos mortos. Na verdade, ela esta dizendo: “Execute ate 
achar que poderia haver um problema, entao troque, so por precaugao”. Isso faz o multithreading de granulagao 
grossa ficar mais parecido com o de granulagao fina, com suas trocas frequentes. 

Seja qual for o tipo de multithreading usado, e preciso ter algum meio de monitorar qual operagao pertence 
a qual thread. Com o multithreading de granulagao fina, a unica possibilidade seria e anexar um identificador 
de thread a cada operagao, para que sua identidade fique clara ao percorrer o pipeline. Com o multithreading de 
granulagao grossa, existe outra maneira: ao trocar threads, limpe o pipeline e so entao inicie o proximo thread. 
Desse modo, somente um thread por vez esta no pipeline e sua identidade nunca e duvidosa. E claro que deixar o 
pipeline funcionar no vazio durante uma troca de thread so faz sentido se as trocas ocorrerem em intervalos muito 
mais longos do que o tempo gasto para esvaziar o pipeline. 

Ate aqui, consideramos que a CPU so pode emitir uma unica instrugao por ciclo. Todavia, como ja vimos, 
CPUs modernas podem emitir multiplas instrugoes por ciclo. Na Figura 8.8, consideramos que a CPU pode emitir 
duas instrugoes por ciclo de clock, mas mantivemos a regra que diz que, quando uma instrugao protela, as sub- 
sequentes nao podem ser emitidas. Na Figura 8.8(a), vemos como funciona o multithreading de granulagao fina 
com uma CPU superescalar de emissao dual. Para o thread A, as duas primeiras instrugoes podem ser emitidas 
no primeiro ciclo, mas para o thread B encontramos logo um problema no proximo ciclo, portanto, somente uma 
instrugao pode ser emitida, e assim por diante. 
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Figura 8.8 Multithreading com uma CPU superescalar de emissao dual, (a) Multithreading de granulacao fina. (b) Multithreading de gra- 
nulacao grossa. (c) Multithreading simultaneo. 
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Na Figura 8.8(b), vemos como funciona o multithreading de granulagao grossa com uma CPU de emissao 
dual, mas agora com um escalonador estatico que nao introduz um ciclo morto apos uma instrugao que protela. 
Em essencia, os threads sao executados um por vez, sendo que a CPU emite duas instrugoes por thread ate atingir um 
que protela, ponto em que troca para o proximo thread no inlcio do ciclo seguinte. 

Com CPUs superescalares ha um terceiro modo, denominado multithreading simultaneo, ilustrado na 
Figura 8.8(c). Essa tecnica pode ser considerada um refinamento do multithreading de granulagao grossa, na qual 
um unico thread tern permissao de emitir duas instrugoes por ciclo pelo tempo que puder, mas, quando prote- 
lar, as instrugoes sao tomadas imediatamente do proximo thread na sequencia, para manter a CPU ocupada por 
completo. O multithreading simultaneo tambem pode ajudar a manter ocupadas todas as unidades funcionais. 
Quando uma instrugao nao puder ser iniciada porque uma unidade funcional de que ela necessita esta ocupada, 
pode-se escolher uma instrugao de um thread diferente no lugar daquela. Nessa figura, estamos considerando que 
B8 protela no ciclo 11, portanto, C7 e iniciada no ciclo 12. 

Se quiser mais informagoes sobre multithreading , consulte Gebhart et al., 2011; e Wing-kei et al., 2011. 

• Hyperthreading no Core i7 

Agora que ja vimos o multithreading no campo abstrato, vamos considerar um exemplo pratico: o Core i7. 
No inlcio da decada de 2000, processadores como Pentium 4 nao ofereciam os aumentos de desempenho de que 
a Intel precisava para manter suas vendas. Depois que o Pentium 4 ja estava em produgao, os arquitetos da Intel 
procuraram varios meios de aumentar sua velocidade sem mudar a interface de programadores, algo que jamais 
seria aceito. Logo surgiram cinco modos: 

1. Aumentar a velocidade de clock. 

2. Colocar duas CPUs em um chip. 

3. Adicionar unidades funcionais. 

4. Aumentar o comprimento do pipeline. 

5. Usar multithreading. 

Um modo obvio de melhorar o desempenho e aumentar a velocidade de clock sem alterar mais nada. Isso e 
algo relativamente direto e bem entendido, portanto, cada novo chip langado em geral e um pouco mais rapido do 
que seu predecessor. Infelizmente, um clock mais rapido tambem tern duas desvantagens principais que limitam 
o tanto de aumento que pode ser tolerado. Primeiro, um clock mais rapido usa mais energia, o que e um enorme 
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problema para notebooks e outros dispositivos que funcionam com bateria. Segundo, a entrada de energia extra 
significa que o chip fica mais quente e que ha mais calor para dissipar. 

Colocar duas CPUs em um chip e relativamente direto, mas equivale a quase duplicar a area do chip se cada 
uma tiver suas proprias caches e, por isso, reduz por um fator de dois o numero de chips por lamina, o que dobra 
o custo de fabricagao por unidade. Se os dois chips compartilharem uma cache em comum, do mesmo tamanho 
da original, a area do chip nao e dobrada, mas o tamanho da cache por CPU e dividido ao meio, o que reduz o 
desempenho. Alem disso, enquanto aplicagoes de servidores de alto desempenho muitas vezes podem utilizar 
totalmente multiplas CPUs, nem todas as aplicagoes para computadores de mesa tern paralelismo inerente sufi- 
ciente para justificar duas CPUs completas. 

Adicionar unidades funcionais tambem e razoavelmente facil, mas e importante conseguir o equillbrio corre- 
to. Nao adianta muito ter dez ULAs se o chip e incapaz de alimentar instrugoes no pipeline com rapidez suficiente 
para mante-las todas ocupadas. 

Um pipeline mais longo, com mais estagios, cada um realizando uma porgao menor do trabalho em um 
perlodo de tempo mais curto eleva o desempenho, mas tambem aumenta os efeitos negativos das previsoes erra- 
das de desvios, ausencias da cache , interrupgoes e outros fatores que obstruem o fluxo normal no pipeline. Alem 
do mais, para o total aproveitamento de um pipeline mais longo, a velocidade de clock tern de ser aumentada, o 
que significa que mais energia e consumida e mais calor e produzido. 

Por fim, pode-se adicionar multithreading. Seu valor esta em fazer um segundo thread utilizar hardware que, 
nao fosse por isso, ficaria abandonado. Apos algumas experimentagoes, ficou claro que um aumento de 5% na 
area do chip para suporte de multithreading resultaria em ganho de 25% em desempenho para muitas aplicagoes, 
o que significava uma boa escolha. A primeira CPU com multithreading da Intel foi a Xeon em 2002, porem, 
mais tarde ele foi adicionado ao Pentium 4, a partir da versao de 3,06 GHz e continuando com versoes mais 
rapidas do processador Pentium, incluindo o Core i7. A Intel deu o nome de hyper threading a implementagao 
de multithreading usada nos seus processadores. 

A ideia basica e permitir que dois threads (ou talvez processos, ja que a CPU nao pode distinguir entre 
thread e processo) executem ao mesmo tempo. Para o sistema operacional, o chip Core i7 com hyperthreading 
parece um processador dual em que ambas as CPUs compartilham em comum uma cache e a memoria principal. 
O sistema operacional escalona os threads de modo independente. Se duas aplicagoes estiverem executando ao 
mesmo tempo, o sistema operacional pode executar ambos ao mesmo tempo. Por exemplo, se um daemon de cor- 
reio estiver enviando ou recebendo e-mail em segundo piano enquanto um usuario esta interagindo com algum 
programa em primeiro piano, o programa daemon e o programa usuario podem executar em paralelo, como se 
houvesse duas CPUs disponlveis. 

Um software de aplicagao projetado para executar como threads multiplos pode usar ambas as CPUs virtuais. 
Por exemplo, programas de edigao de video em geral permitem que os usuarios especifiquem certos filtros para 
aplicar a cada quadro dentro de algum limite. Esses filtros podem modificar o brilho, o contraste, o equillbrio 
de cores e outras propriedades. Entao, o programa pode designar uma CPU para processar os quadros de numeros 
pares e a outra para processar os de numeros Impares e as duas conseguem executar em paralelo. 

Uma vez que dois threads compartilham todos os recursos de hardware, e preciso uma estrategia para 
gerenciar o compartilhamento. A Intel identificou quatro estrategias uteis para compartilhamento de recursos 
em conjunto com hyper threading: duplicagao de recursos, partigao de recursos, compartilhamento limitado e 
compartilhamento total. Vamos estudar cada uma delas por vez. 

Para comegar, alguns recursos sao duplicados so para fazer o threading. Por exemplo, visto que cada thread 
tern seu proprio fluxo de controle, e preciso acrescentar um segundo contador de programa. Alem disso, a tabela 
que mapeia os registradores de arquitetura (EAX, EBX etc.) para registradores flsicos tambem tern de ser dupli- 
cada, assim como o controlador de interrupgao, ja que os threads podem ser interrompidos independentemente. 

Em seguida, temos o, compartilhamento por partigao de recursos, no qual os recursos do hardware sao divi- 
didos rigidamente entre os threads. Por exemplo, se a CPU tiver uma fila entre dois estagios de pipeline funcional, 
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metade das posigoes poderia ser dedicada ao thread lea outra metade ao thread 2. A partigao e facil de executar, 
nao tem sobrecarga e impede que os threads interfiram uns com os outros. Se todos os recursos sao repartidos, na 
verdade temos duas CPUs separadas. Como desvantagem, e facil acontecer que, em algum ponto, um thread nao 
esteja usando alguns de seus recursos de que o outro necessita, porem esta proibido de acessar. Por conseguinte, 
recursos que poderiam ter sido usados produtivamente ficam ociosos. 

O oposto do compartilhamento por partigao de recursos e o compartilhamento total de recursos. Quando 
esse esquema e usado, qualquer thread pode adquirir quaisquer recursos de que precisar, conforme polltica do 
primeiro a chegar, primeiro a ser atendido. Contudo, imagine um thread rapido que consiste em adigoes e sub- 
tragoes e um lento que consiste em multiplicagoes e divisoes. Se as instrugoes forem buscadas na memoria com 
maior rapidez do que as multiplicagoes e divisoes podem ser efetuadas, a provisao de instrugoes buscadas para o 
thread lento e enfileiradas, mas ainda nao alimentadas no pipeline , crescera com o tempo. 

Em dado instante, essa provisao ocupara toda a fila de instrugoes, o que ocasiona a parada do thread por 
falta de espago nessa fila. O compartilhamento total resolve o problema de um recurso que fica ocioso enquanto 
outro thread o quer, mas cria um novo problema: um thread poderia tomar para si uma quantidade tao grande de 
recursos que provocaria a redugao da velocidade do outro ou o faria parar por completo. 

Um esquema intermediario e o compartilhamento limitado, no qual um thread pode adquirir recursos 
dinamicamente (nao ha partigoes fixas), mas apenas ate um maximo. Quando ha recursos duplicados, essa tec- 
nica permite flexibilidade sem o perigo de um thread morrer de fome pela incapacidade de adquirir uma parte 
do recurso. Por exemplo, se nenhum thread puder adquirir mais do que 3/4 da fila de instrugoes, nao importa 
o que o thread lento faga, o thread rapido sempre podera executar. O hyperthreading do Core i7 usa estrate- 
gias diferentes para recursos diferentes na tentativa de enfrentar os varios problemas que acabamos de citar. A 
duplicagao e usada para recursos que cada thread requer o tempo todo, como o contador de programa, o mapa 
de registradores e o controlador de interrupgao. Duplicar esses recursos aumenta a area do chip em apenas 5%, 
um prego modesto a pagar pelo multithreading. Recursos disponlveis com tal abundancia que nao ha perigo de um 
unico thread capturar todos eles, como linhas de cache , sao totalmente compartilhados de um modo dinamico. 
Por outro lado, recursos que controlam a operagao do pipeline , como as varias filas dentro do pipeline , sao repar¬ 
tidos e cada thread recebe metade das posigoes. O pipeline principal da microarquitetura Sandy Bridge usada no 
Core i7 e ilustrado na Figura 8.9; os retangulos brancos e cinza indicam como os recursos sao alocados entre os 
threads brancos e cinza. 


Figura 8.9 Compartilhamento de recursos entre threads na microarquitetura Core i7. 
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Nessa figura, podemos ver que todas as filas sao repartidas, sendo que metade das posigoes em cada fila e 
reservada para cada thread. Nessa partigao, nenhum thread pode estrangular o outro. O alocador e renomeador 
de registrador tambem e repartido. O escalonador e compartilhado dinamicamente, mas com um limite, para 
impedir que qualquer dos threads reivindique para si todas as posigoes. Os estagios restantes do pipeline sao 
totalmente compartilhados. 
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Entretanto, nem tudo sao flores no multithreading - tambem ha uma desvantagem. Embora o particio- 
namento seja barato, o compartilhamento dinamico de qualquer recurso e, em especial, com um limite sobre 
quanto um thread pode pegar, requer contabilidade durante a execugao, para monitorar a utilizagao. Alem 
disso, podem surgir situagoes nas quais programas funcionam muito pior com multithreading do que sem ele. 
Por exemplo, imagine que temos dois threads e que cada um precisa de 3/4 da cache para funcionar bem. Se 
executados em separado, cada um funciona bem e encontra poucas ausencias da cache (caras). Se executados 
juntos, cada um encontra um grande numero de ausencias da cache e o resultado liquido e bem pior do que 
se nao houvesse multithreading. 

Mais informagoes sobre multithreading e sua implementagao dentro dos processadores Intel sao dadas em 
Gerber e Binstock, 2004; e Gepner et al., 2011. 

8.1.3 Multiprocessadores com um unico chip 

Embora o multithreading oferega ganhos em desempenho significativos por um custo modesto, para algu- 
mas aplicagoes e preciso um ganho em desempenho muito maior do que ele pode oferecer. Para conseguir esse 
desempenho estao sendo desenvolvidos chips multiprocessadores. Ha duas areas de inter esse para esses chips 
que contem duas ou mais CPUs: servidores de aha tecnologia e equipamentos eletronicos de consumo. A seguir, 
vamos fazer um breve estudo de cada uma delas. 

• Multiprocessadores homogeneos em um chip 

Com os avangos na tecnologia VLSI, agora e posslvel colocar duas ou mais CPUs de grande capacidade em 
um unico chip. Vis to que essas CPUs em geral compartilham a mesma cache de nivel 2 e memoria principal, elas 
se qualificam como um multiprocessador, como discutimos no Capltulo 2. Uma area de aplicagao tlpica e um 
grande conjunto de hospedeiros Web (server farm) composto de muitos servidores. Ao colocar duas CPUs na 
mesma caixa, compartilhando nao so memoria, mas tambem discos e interfaces de rede, muitas vezes pode-se 
dobrar o desempenho do servidor sem dobrar o custo (porque, mesmo ao dobro do prego, o chip de CPU e apenas 
uma fragao do custo total do sistema). 

Ha dois projetos predominantes para multiprocessadores de pequena escala em um unico chip. No primeiro, 
mostrado na Figura 8.10(a), na realidade ha so um chip, mas ele tern um segundo pipeline , o que pode dobrar a 
taxa de execugao de instrugoes. No segundo, mostrado na Figura 8.10(b), ha nucleos separados no chip e cada 
um contem uma CPU completa. Um nucleo e um grande circuito, tal como uma CPU, controlador de E/S ou 
cache , que pode ser colocado em um chip de forma modular, normalmente ao lado de outros nucleos. 


Figura 8.10 Multiprocessadores com um unico chip, (a) Chip com pipeline dual, (b) Chip com dois nucleos. 
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O primeiro projeto permite que recursos, como unidades funcionais, sejam compartilhados entre os proces- 
sadores, o que permite que uma CPU use recursos que a outra nao necessita. Por outro lado, essa tecnica requer 
um novo projeto para o chip e nao funciona muito bem para mais de duas CPUs. Por comparagao, colocar dois 
ou mais nucleos de CPU no mesmo chip e algo relativamente facil de fazer. 

Discutiremos multiprocessadores mais adiante neste capitulo. Embora o foco dessa discussao esteja mais em 
multiprocessadores construldos a partir de chips com uma unica CPU, grande parte tambem pode ser aplicada a 
chips com multiplas CPUs. 

• 0 multiprocessador em um unico chip Core i7 

A CPU Core i7 e um processador em um unico chip manufaturado com quatro ou mais nucleos em uma 
unica pastilha de sillcio. A organizagao de alto nivel de um processador Core i7 e ilustrada na Figura 8.11. 


Figura 8.11 


Arquitetura do multiprocessador em um unico chip do Core i7. 
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Cada processador no Core i7 tern suas proprias caches LI privada para instrugao e dados, mais sua propria 
cache L2 unificada privada. Os processadores sao conectados as caches privadas com conexoes ponto a ponto 
dedicadas. O proximo nivel da hierarquia de memoria e a cache de dados L3 compartilhada e unificada. 

As caches L2 se conectam a cache compartilhada L3 usando uma rede em anel. Quando um pedido de comu- 
nicagao entra na rede em anel, ele e encaminhado para o proximo no na rede, onde e verificado se alcangou seu 
no de destino. Esse processo continua de um no para outro no anel, ate que o no de destino seja encontrado ou o 
pedido chegue a sua origem novamente (quando o destino nao existe). A vantagem de uma rede em anel e que ela 
e um modo barato de conseguir alta largura de banda, com o custo de maior latencia enquanto os pedidos saltam 
de um no para outro. A rede em anel do Core i7 tern duas finalidades principals. Primeiro, ela oferece um modo 
de mover pedidos de memoria e E/S entre as caches e processadores. Segundo, ela executa as verificagoes neces- 
sarias para garantir que cada processador esteja sempre tendo uma visao coerente da memoria. Aprenderemos 
mais sobre essas verificagoes de coerencia mais adiante neste capitulo. 

• Multiprocessadores heterogeneos em um chip 

Uma area de aplicagao completamente diferente que utiliza multiprocessadores em um unico chip e a de 
sistemas embutidos, em especial em equipamentos eletronicos audiovisuais de consumo, como aparelhos de 
televisao, DVDs, filmadoras, consoles de jogos, telefones celulares e assim por diante. Esses sistemas possuem 
requisitos de desempenho exigentes e restrigoes rlgidas. Embora tendo aparencias diferentes, cada vez mais esses 
aparelhos sao so pequenos computadores, com uma ou mais CPUs, memorias, controladores de E/S e alguns 
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dispositivos de E/S proprios. Um telefone celular, por exemplo, e um mero PC com uma CPU, memoria, teclado 
diminuto, microfone, alto-falante e uma conexao de rede sem fio, dentro de um pequeno pacote. 

Considere, como exemplo, um aparelho portatil de DVD. O computador que esta dentro dele tern de mani- 
pular as seguintes fungoes: 

1. Controle de um servomecanismo barato, nao confiavel, para posicionamento do cabegote. 

2. Conversao de analogico para digital. 

3. Corregao de erros. 

4. Decriptagao e gerenciamento de direitos digitais. 

5. Descompressao de video MPEG-2. 

6. Descompressao de audio. 

7. Codificagao da salda para aparelhos de televisao NTSC, PAL ou SECAM. 

Esse trabalho deve ser realizado em rlgidas restrigoes de tempo real, qualidade de servigo, energia, dissipagao 
de calor, tamanho, peso e prego. 

Discos de CD, DVD e Blu-ray contem uma longa espiral na qual estao as informagoes, como ilustrado na 
Figura 2.25 (para um CD). Nesta segao, discutiremos os DVDs, pois eles ainda sao mais comuns do que os discos 
Blu-ray, mas estes sao muito semelhantes aos DVDs, exceto por utilizarem codificagao MPEG-4 em vez de MPEG-2. 
Com toda mldia otica, o cabegote de leitura deve percorrer a espiral com precisao a medida que o disco gira. O 
prego e mantido baixo pela utilizagao de um projeto mecanico relativamente simples e pelo rlgido controle da 
posigao do cabegote em software. O sinal que sai do cabegote e um sinal analogico que deve ser convertido para 
forma digital antes de ser processado. Apos ser digitalizado, e preciso extensa corregao de erros porque DVDs sao 
prensados e contem muitos erros, que devem ser corrigidos em software. O video e comprimido usando o padrao 
internacional MPEG-2, que requer calculos complexos para a descompressao (parecidos com transformadas de 
Fourier). O audio e comprimido usando um modelo psicoacustico que tambem requer calculos sofisticados para 
descompressao. Por fim, audio e video tern de ser entregues em uma forma adequada para reprodugao em apare¬ 
lhos de televisao NTSC, PAL ou SECAM, dependendo do pais para o qual o aparelho de DVD sera despachado. 
Nao e nenhuma surpresa que seja impossivel fazer todo esse trabalho em tempo real, em software, com uma CPU 
barata de uso geral. Nesse caso, precisamos de um multiprocessador heterogeneo que contenha multiplos nucleos, 
cada um especializado para uma tarefa particular. Um exemplo de aparelho de DVD e dado na Figura 8.12. 


Figura 8.12 A estrutura logica de um simples aparelho de DVD contem um multiprocessador heterogeneo com multiplos nucleos para dife- 
rentes funcoes. 
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As fungoes dos nucleos na Figura 8.12 sao todas diferentes, e cada uma e projetada com cuidado para ser muito 
boa no que faz pelo prego mais baixo posslvel. Por exemplo, o video de DVD e comprimido usando um esquema 
conhecido como MPEG-2 (que quer dizer Motion Picture Experts Group - grupo de especialistas em filmes que 
o inventou). O sistema consiste em dividir cada quadro em blocos de pixels e fazer uma transformagao complexa em 
cada um. Um quadro pode consistir inteiramente em blocos transformados ou especificar que certo bloco e igual a 
outro ja encontrado no quadro anterior, exceto por um par de pixels que foram alterados, porem localizado com um 
afastamento de (Ax, Ay) em relagao a posigao corrente. Esse calculo em software e extremamente lento, mas e posslvel 
construir uma maquina de decodificagao MPEG-2 que pode efetua-lo em hardware com bastante rapidez. De modo 
semelhante, a decodificagao de audio e a recodificagao de sinal de audio-video composto para ficar de acordo com um 
dos padroes mundiais de televisao podem ser mais bem executadas por processadores dedicados em hardware. Essas 
observagoes nao tardaram a gerar chips multiprocessadores heterogeneos que contem multiplos nucleos projetados 
para aplicagoes audiovisuais. Contudo, como o processador de controle e uma CPU programavel de uso geral, o chip 
multiprocessador tambem pode ser usado em outras aplicagoes semelhantes, como um gravador de DVD. 

Outro dispositivo que requer um multiprocessador heterogeneo e o que esta dentro de um telefone celular 
avangado. Os atuais as vezes tern maquinas fotograficas, videocameras, maquinas de jogos, browsers Web, leitores 
de e-mail e receptores de radio por satelite, que usam a tecnologia de telefonia celular (CDMA ou GSM, dependendo 
do pais) ou Internet sem fio (IEEE 802.11, tambem chamada WiFi); os futuros podem incluir todos esses. A medida 
que os dispositivos adquirem cada vez mais funcionalidade, com relogios que se transformam em mapas baseados 
em GPS e oculos que se transformam em radios, a necessidade de multiprocessadores heterogeneos so aumentara. 

Dentro em pouco, os chips terao dezenas de bilhoes de transistores. Chips como esses sao grandes demais 
para que se projete uma porta e um fio por vez. O esforgo humano requerido faria com que os chips ficassem 
obsoletos quando fossem terminados. A unica maneira viavel e usar nucleos (basicamente, bibliotecas) que con- 
tenham subconjuntos grandes o suficiente e entao coloca-los e interconecta-los no chip conforme necessario. 
Entao, os projetistas tern de determinar qual nucleo de CPU usar para o processador de controle e quais proces¬ 
sadores de uso especial acrescentar para ajuda-lo. Atribuir mais carga ao software que executa no processador de 
controle faz o sistema ficar mais lento, mas resulta em um chip menor (e mais barato). Ter varios processadores 
de uso especial para processamento de audio e video ocupa area do chip, aumentando o custo, mas resulta em 
desempenhos mais altos e uma taxa de clock mais baixa, o que significa menor consumo de energia e menos dis- 
sipagao de calor. Assim, os projetistas de chips enfrentam cada vez mais esses compromissos macroscopicos em 
vez de se preocupar com onde vao colocar cada transistor. 

Aplicagoes audiovisuais utilizam dados intensamente. Enormes quantidades de dados tern de ser processadas de 
modo muito rapido, portanto, o normal e que 50% a 75% da area do chip sejam dedicados a memoria de uma forma 
ou outra, e a quantidade esta crescendo. Neste caso, as questoes de projeto sao numerosas. Quantos niveis devem ser 
usados? As caches devem ser divididas ou unificadas? Qual devera ser o tamanho de cada uma? Qual devera ser a rapi¬ 
dez? Um pouco da memoria tambem tern de ir para o chip? Ela deve ser SRAM ou SDRAM? As respostas para cada uma 
dessas perguntas tern importantes implicagoes para o desempenho, consumo de energia e dissipagao de calor do chip. 

Alem do projeto de processadores e sistema de memoria, outra questao de consideravel consequencia e o sis¬ 
tema de comunicagao - como todos os nucleos se comunicam uns com os outros? No caso de sistemas pequenos, 
um unico barramento costuma dar conta do negocio, mas para sistemas maiores ele logo se torna um gargalo. 
Muitas vezes, o problema pode ser resolvido migrando para multiplos barramentos ou, talvez, para um anel que 
vai de um nucleo a outro. Nesse ultimo caso, a arbitragao e conduzida passando um pequeno pacote, denomina- 
do permissao, ao redor do anel. Para transmitir, primeiro um nucleo deve capturar a permissao. Ao concluir, ele 
devolve a permissao ao anel, de modo que ela possa continuar circulando. Esse protocolo evita colisoes no anel. 

Como exemplo de uma interconexao no chip, considere o CoreConnect da IBM, ilustrado na Figura 8.13. 
E uma arquitetura para conectar nucleos em um multiprocessador heterogeneo de um unico chip. Trata-se de um 
projeto de sistema-em-um-chip especialmente completo. De certo modo, o CoreConnect e para multiprocessadores 
de chip unico o que o barramento PCI foi para o Pentium - a cola que mantem juntas todas as partes. (Com os 
modernos sistemas Core i7, PCIe e a cola, mas e uma rede ponto a ponto, sem um barramento compartilhado, como 
PCI.) Contudo, ao contrario do barramento PCI, o CoreConnect foi projetado sem qualquer exigencia de compa- 
tibilidade com equipamentos herdados ou protocolos e sem as restrigoes de barramentos de nivel de placa, como 
limites ao numero de pinos que o conector de borda pode ter. 



452 


Organizacao estruturada de computadores 


Figura 8.13 Exemplo da arquitetura CoreConnect da IBM. 



O CoreConnect consiste em tres barramentos. O barramento de processador e de alta velocidade, slncrono, 
com pipeline , com 32, 64 ou 128 linhas de dados com clocks de 66, 133 ou 183 MHz. Assim, a vazao maxima 
e 23,4 Gbps (contra 4,2 Gbps para o barramento PCI). As caracterlsticas de pipeline permitem que os nucleos 
requisitem o barramento enquanto esta ocorrendo uma transference e permitem que diferentes nucleos usem 
linhas diferentes ao mesmo tempo, semelhante ao barramento PCI. O barramento de processador e otimizado 
para curtas transferencias de blocos. Ele foi projetado para conectar nucleos rapidos, como CPUs, decodificadores 
MPEG-2, redes de alta velocidade e itens semelhantes. 

Estender o barramento de processador ao chip inteiro reduziria seu desempenho, portanto, um segundo 
barramento esta presente para dispositivos de E/S lentos, como UARTs, temporizadores, controladores USB, 
dispositivos de E/S serial e assim por diante. Esse barramento de perifericos foi projetado com o objetivo de 
simplificar sua interface com perifericos de 8, 16 e 32 bits usando nao mais do que uma centena de portas. 
Ele tambem e slncrono, com uma vazao maxima de 300 Mbps. Os dois barramentos sao conectados por uma 
ponte, nao muito diferente das pontes que foram usadas para conectar os barramentos PCI e ISA em PCs, ate 
o barramento ISA ser descontinuado ha alguns anos. 

O terceiro barramento e o barramento de registradores de dispositivo, de mutua apresentagao, asslncro- 
no, de velocidade muito baixa, utilizado para permitir que os processadores acessem os registradores de dispo¬ 
sitivos de todos os perifericos de modo a controlar os dispositivos correspondentes. E destinado a transferencias 
pouco frequentes de apenas alguns bytes por vez. 

Ao fornecer barramento no chip, interface e estrutura padronizados, a IBM espera criar uma versao em 
miniatura do mundo do PCI, na qual muitos fabricantes produzam processadores e controladores faceis de 
serem interconectados. Entretanto, uma diferenga e que, no mundo do PCI, os fabricantes produzem e vendem 
as placas propriamente ditas que os montadores e usuarios finais de PC compram. No mundo do CoreConnect, 
terceiros projetam nucleos, mas nao os fabricam. Em vez disso, eles os licenciam como propriedade intelectual 
para empresas de eletronicos de consumo e outras, que entao projetam chips multiprocessadores heterogeneos 
por encomenda, baseados em seus proprios nucleos e em nucleos licenciados por terceiros. Visto que fabricar 
esses chips tao grandes e complexos requer macigo investimento em unidades industriais, na maioria dos casos 
as empresas de eletronicos de consumo apenas fazem o projeto e subcontra tarn a fabricagao do chip com um 
fabricante de semicondutores. Existem nucleos para varias CPUs (ARM, MIPS, PowerPC etc.), bem como para 
decodificadores MPEG, processadores de sinais digitais e todos os controladores de E/S padronizados. 

O CoreConnect da IBM nao e o unico barramento no chip popular no mercado. O AMBA (Advanced 
Microcontroller Bus Architecture - arquitetura de barramento avangado de microcontrolador), tambem e muito 
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usado para conectar CPUs ARM a outras CPUs e dispositivos de E/S (Flynn, 1997). Outros barramentos no chip um 
pouco menos populares sao o VCI (Virtual Component Interconnect - interconexao de componentes virtuais) e o 
OCP-IP (Open Core Protocol-International Partnership - Alianga Internacional de Protocolo de Nucleo Aberto), 
que tambem estao competindo por uma fatia do mercado (Bhakthavatchalu et al., 2010). Barramentos no chip sao 
apenas o comego; ha quern ja esteja pensando em redes inteiras em um chip (Ahmadinia e Shahrabi, 2011). 

Como os fabricantes de chips encontram uma dificuldade cada vez maior para elevar frequences de clock por 
causa de problemas de dissipagao de calor, multiprocessadores em um unico chip sao um topico que desperta muito 
interesse. Mais informagoes podem ser encontradas em Gupta et al., 2010; Herrero et al., 2010; e Mishra et al., 2011. 


8.2 Coprocessadores 

Agora que ja vimos alguns dos modos de conseguir paralelismo no chip, vamos subir um degrau e ver como 
o computador pode ganhar velocidade com a adigao de um segundo processador especializado. Ha uma variedade 
desses coprocessadores, de pequenos a grandes. Nos mainframes IBM 360 e em todos os seus sucessores, existem 
canais independentes de E/S para fazer entrada/salda. De modo semelhante, o CDC 6600 tinha dez processado- 
res independentes para efetuar E/S. Graficos e aritmetica de ponto flutuante sao outras areas em que sao usados 
coprocessadores. Ate mesmo um chip DMA pode ser visto como um coprocessador. Em alguns casos, a CPU da 
ao coprocessador uma instrugao ou um conjunto de instrugoes e ordena que ele as execute; em outros casos, ele 
e mais independente e funciona em grande parte por si so. 

Em termos flsicos, coprocessadores podem variar de um gabinete separado (os canais de E/S do 360) a uma placa 
de expansao (processadores de rede) ou uma area no chip principal (ponto flutuante). Em todos os casos, o que os 
distingue e o fa to de que algum outro processador e o principal e que os coprocessadores estao la para ajuda-lo. Agora, 
examinaremos tres areas em que e posslvel aumentar a velocidade: processamento de rede, multimldia e criptografia. 

8.2.1 Processadores de rede 

Grande parte dos computadores de hoje estao conectados a uma rede ou a Internet. Como resultado desse 
progresso tecnologico em hardware de rede, as redes agora sao tao rapidas que ficou cada vez mais diflcil pro- 
cessar em software todos os dados que entram e que saem. Por conseguinte, foram desenvolvidos processadores 
especiais de rede para lidar com o trafego e muitos computadores de aha tecnologia agora tern um desses proces¬ 
sadores. Nesta segao, antes de tudo, vamos dar uma breve introdugao a redes e em seguida discutiremos como 
funcionam os processadores de rede. 

• Introduce a redes 

Redes de computadores podem ser de dois tipos gerais: redes locais, ou LANs (Local-Area Networks), que 
conectam varios computadores dentro de um ediflcio, campus , escritorio ou residencia, e redes de longa distan- 
cia ou WANs (Wide-Area Networks), que conectam computadores espalhados por uma grande area geografica. 
A LAN mais popular e denominada Ethernet. A Ethernet original consistia em um cabo grosso no qual eram 
forgosamente inseridos os fios que vinham de cada computador, usando uma derivagao conhecida pelo eufemis- 
mo conector vampiro. Ethernets modernas ligam os computadores a um switch central, como ilustrado no lado 
direito da Figura 8.14. A Ethernet original se arrastava a 3 Mbps, mas a primeira versao comercial foi de 10 Mbps. 
Ela nao demorou muito a ser substitulda pela Fast Ethernet a 100 Mbps e, em seguida, pela Gigabit Ethernet a 
1 Gbps. Ja existe no mercado uma Ethernet de 10 gigabits e uma de 40 gigabits ja esta pronta para ser langada. 

A organizagao das WANs e diferente. Elas consistem em computadores especializados denominados rotea- 
dores conectados por fios ou fibras oticas, como mostra a parte do meio da Figura 8.14. Blocos de dados denomi¬ 
nados pacotes, normalmente de 64 a cerca de 1.500 bytes, sao movidos da maquina de origem e passam por um 
ou mais roteadores ate alcangarem seu destino. Em cada salto, um pacote e armazenado na memoria do roteador 
e entao repassado ao proximo roteador ao longo do caminho, tao logo a linha de transmissao necessaria esteja 
disponlvel. Essa tecnica e denominada comutagao de pacotes armazena-e-encaminha. 
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Figura 8.14 


Como os usuarios sao conectados a servidores na Internet. 


Instalagoes do provedor de aplicagao 



Embora muitos achem que Internet e uma WAN unica, tecnicamente ela e um conjunto de muitas WANs 
conectadas umas as outras. Todavia, essa distingao nao e importante para nossa finalidade. A Figura 8.14 da uma 
visao da Internet do ponto de vista de um usuario domestico. O computador do usuario em geral esta conectado 
a um servidor Web pelo sistema telefonico, por meio de um modem discado de 56 kbps ou por ADSL, que foi dis- 
cutido no Capltulo 2. (Como alternativa, pode ser usado um cabo de TV, caso em que o lado esquerdo da Figura 
8.14 e ligeiramente diferente e a empresa de TV a cabo e o ISP.) O computador do usuario desmembra em pacotes 
os dados que serao enviados ao servidor e envia esses pacotes ao ISP (Internet Service Provider - provedor de 
servigos de Internet), uma empresa que oferece acesso a Internet aos seus clientes. O ISP tern uma conexao 
de alta velocidade (geralmente por fibra otica) com uma das redes regionais ou backbones que compoem a 
Internet. Os pacotes do usuario sao repassados salto por sal to pela Internet ate chegarem ao servidor Web. 

A maioria das empresas que oferece servigos de Web tern um computador especializado denominado 
firewall, que filtra todo o trafego que chega na tentativa de remover pacotes indesejados (por exemplo, pacotes 
de hackers que estejam tentando invadir a rede). O firewall esta conectado a LAN local, normalmente um switch 
Ethernet, que roteia pacotes ate o servidor desejado. E claro que a realidade e muito mais complicada do que 
mostramos, mas a ideia basica da Figura 8.14 continua valida. 

O software de rede consiste em multiplos protocolos, e cada um deles e um conjunto de formatos, sequen¬ 
ces de troca e regras sobre o significado dos pacotes. Por exemplo, quando um usuario quer buscar uma pagina 
Web em um servidor, seu browser envia ao servidor um pacote que contem uma requisigao GET PAGE usando 
o protocolo HTTP (HyperText Transfer Protocol - protocolo de transference de hipertexto). O servidor sabe 
como processar essas requisigoes. Ha muitos protocolos em uso e, com frequence, eles sao combinados. Na 
maioria das situagoes, os protocolos sao estruturados como uma serie de camadas, sendo que as mais altas passam 
pacotes para as mais baixas para processamento e a camada mais baixa efetua a transmissao propriamente dita. 
No lado receptor, os pacotes percorrem seu caminho pelas camadas na ordem inversa. 

Uma vez que processamento de protocolos e o que os processadores de rede fazem para ganhar a vida, e 
necessario explicar um pouco sobre protocolos antes de estudar os processadores de rede em si. Por enquanto, 
vamos voltar a requisigao GET PAGE. Como ela e enviada ao servidor Web? O que acontece e que, em pri- 
meiro lugar, o browser estabelece uma conexao com o servidor Web usando um protocolo denominado TCP 
(Transmission Control Protocol - protocolo de controle de transmissao). O software que executa esse protocolo 
verifica se todos os pacotes foram recebidos corretamente e na ordem certa. Se um pacote se perder, o software 
TCP garante que ele seja retransmitido tantas vezes quantas forem necessarias ate ser recebido. 

Na pratica, o que acontece e que o browser Web formata a requisigao GET PAGE como uma mensagem 
HTTP correta e entao a entrega ao software TCP para que seja transmitida pela conexao. O software TCP 
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acrescenta um cabegalho a frente da mensagem, que contem um numero de sequencia e outras informagoes. 
Naturalmente, esse cabegalho e denominado cabegalho TCP. 

Isso feito, o software TCP pega o cabegalho TCP e a carga util (ou payload, que contem a requisigao GET 
PAGE ) e os passa a outro software que executa o Protocolo IP (Internet Protocol). Esse software anexa a frente 
do pacote um cabegalho IP que contem o enderego da origem (a maquina da qual o pacote esta partindo), o 
enderego de destino (a maquina para a qual o pacote deve ir), por quantos saltos mais o pacote pode viver (para 
evitar que pacotes perdidos fiquem vagando eternamente pela rede), uma soma de verificagao (para detectar erros 
de transmissao e de memoria) e outros campos. 

Em seguida, o pacote resultante (que agora e composto do cabegalho IP, cabegalho TCP e requisigao GET 
PAGE ) e passado para baixo, para a camada de enlace de dados, e e acrescentado um cabegalho de enlace de dados 
a frente do pacote para a transmissao. A camada de enlace de dados tambem acrescenta uma soma de verificagao 
ao final do pacote, denominada CRC (Cyclic Redundancy Code - codigo de redundancia clclica) para detectar 
erros de transmissao. A presenga de somas de verificagao na camada de enlace de dados e na de IP poderia parecer 
redundante, mas ela melhora a confiabilidade. A cada salto, o CRC e verificado e o cabegalho e o CRC sao remo- 
vidos e recriados em um formato apropriado para o enlace de salda. A Figura 8.15 mostra o aspecto do pacote 
quando esta na Ethernet. Em uma linha telefonica (para ADSL) ele e semelhante, exceto pelo “cabegalho de linha 
telefonica” em vez de um cabegalho Ethernet. O gerenciamento de cabegalhos e importante e e uma das coisas 
que os processadores de rede podem fazer. Nao e preciso dizer que apenas arranhamos a superflcie da questao de 
redes de computadores. Se o leitor quiser um tratamento mais abrangente, consulte Tanenbaum e Wetherall, 2011. 


Figura 8.15 


Pacote tal como aparece na Ethernet. 
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• Introducao a processadores de rede 

Ha muitos tipos de dispositivos conectados as redes. Usuarios finais tern computadores pessoais (de mesa 
ou notebooks), e claro, porem, cada vez mais tambem tern maquinas de jogos, PDAs ( palmtops ) e smartphones. 
Empresas tern PCs e servidores como sistemas finais. Todavia, ha tambem numerosos dispositivos que funcionam 
como sistemas intermediarios em redes, entre eles roteadores, switches, firewalls, proxies da Web e balanceadores 
de carga. O interessante e que esses sistemas intermediarios sao os mais exigentes, ja que sao eles que devem 
movimentar o maior numero de pacotes por segundo. Servidores tambem sao exigentes, mas as maquinas do 
usuario nao sao. 

Dependendo da rede e do pacote em si, um pacote que chega pode precisar de varios tipos de processamento 
antes de ser repassado para a linha de salda ou para o programa de aplicagao. Esse processamento pode incluir 
decidir para onde enviar o pacote, fragmenta-lo, reconstrul-lo a partir de seus pedagos, gerenciar sua qualidade 
de servigo (em especial para fluxos de audio e video), gerenciar seguranga (por exemplo, criptografar e decripto- 
grafar), compressao/descompressao e assim por diante. 

Com a velocidade das LANs se aproximando de 40 gigabits/segundo e pacotes de 1 KB, um computador em 
rede pode ter de processar quase 5 milhoes de pacotes/segundo. Quando os pacotes sao de 64 bytes, o numero 
deles que tern de ser processado por segundo sobe a quase 80 milhoes. Executar todas as varias fungoes que 
acabamos de mencionar em 12-200 ns (alem das multiplas copias do pacote que, sempre, sao necessarias) sim- 
plesmente nao e viavel em software. A assistencia do hardware e essencial. 

Um tipo de solugao de hardware para processamento rapido de pacotes e usar um ASIC (Application-Specific 
Integrated Circuit - circuito integrado especlfico da aplicagao) por especificagao. Esse chip e como um programa 
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fixo que executa qualquer conjunto de dingoes de processamento para o qual foi projetado. Muitos roteadores atuais 
usam ASICs. Entretanto, os ASICs tem muitos problemas. Primeiro, o projeto de um ASIC e muito demorado e sua 
fabricagao tambem. Eles sao rlgidos, portanto, se for necessaria uma nova funcionalidade, sera preciso projetar e 
fabricar um novo chip. Alem do mais, o gerenciamento de bugs e um pesadelo, visto que o unico modo de conserta- 
-los e projetar, fabricar, despachar e instalar novos chips. Tambem sao caros, a menos que o volume seja tao grande 
que permita amortizar o esforgo do desenvolvimento com uma quantidade substancial de chips. 

Uma segunda solugao e o FPGA (Field Programmable Gate Array - arranjo de portas programavel em 
campo), um conjunto de portas que pode ser organizado conforme o circuito desejado modificando sua fiagao em 
campo. O tempo de chegada ao mercado desses chips e muito mais curto do que o dos ASICs, e sua fiagao pode 
ser modificada em campo removendo-os do sistema e inserindo-os em um dispositivo especial de reprogramagao. 
Por outro lado, eles sao complexos, lentos e caros e, por isso, nao sao atraentes, exceto para aplicagoes que tem 
um nicho de mercado especlfico. 

Por fim, chegamos aos processadores de rede, dispositivos programaveis que podem manipular pacotes 
que chegam e que saem a velocidade dos fios, isto e, em tempo real. Um projeto comum e uma placa de expan- 
sao que contem um processador de rede em um chip junto com memoria e logica de apoio. Uma ou mais linhas de 
rede se conectam com a placa e sao roteadas para o processador de rede. Ali, os pacotes sao extraldos, processados 
e enviados por uma linha de rede diferente (por exemplo, para um roteador) ou enviados para o barramento do 
sistema principal (por exemplo, o barramento PCI) no caso de dispositivo de usuario final, como um PC. Uma 
placa de processador de rede e um chip tlpicos sao ilustrados na Figura 8.16. 


Figura 8.16 Placa e chip de um processador de rede tipico. 
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Tanto a SRAM quanto a SDRAM sao fornecidas na placa e normalmente sao usadas de modos diferentes. 
A SRAM e mais rapida, porem mais cara do que a SDRAM, portanto, ha apenas uma pequena quantidade 
dela. A SRAM e usada para conter tabelas de roteamento e outras estruturas de dados fundamental, enquanto 
a SDRAM contem os pacotes que estao sendo processados. Como a SRAM e a SDRAM sao externas ao chip do 
processador de rede, os projetistas da placa tem flexibilidade para determinar quanto fornecer de cada uma. 
Desse modo, placas de baixa tecnologia com uma unica linha de rede (por exemplo, para um PC ou um servidor) 
podem ser equipadas com uma pequena quantidade de memoria, enquanto uma placa de alta tecnologia para um 
roteador de grande porte pode ser equipada com muito mais. 
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Chips de processadores de rede sao otimizados para processar de modo rapido grandes quantidades de paco- 
tes que entram e saem. Isso significa milhoes de pacotes por segundo por linha de rede, e um roteador poderia ter, 
facilmente, meia duzia de linhas. A unica maneira de atingir tais taxas de processamento e construir processado¬ 
res de rede munidos de alto grau de paralelismo. E, de fato, todos os processadores de rede consistem em varios 
PPEs, denominados pelos variados nomes Protocol/Programmable/Packet Processing Engines (dispositivos de 
processamento de protocolo/programaveis/pacotes). Cada um e um nucleo RISC (talvez modificado) e uma 
pequena quantidade de memoria interna para conter o programa e algumas variaveis. 

Os PPEs podem ser organizados de dois modos diferentes. A organizagao mais simples e todos os PPEs iden- 
ticos. Quando um pacote chega ao processador de rede, seja um pacote de entrada que vem de uma linha de rede, 
seja um de salda que vem do barramento, ele e entregue a um PPE ocioso para processamento. Se nao houver 
um, o pacote entra na fila da SDRAM na placa ate que algum PPE seja liberado. Quando e usada essa organizagao, 
as conexoes horizontais mostradas entre os PPEs na Figura 8.16 nao existem porque os PPEs nao tern nenhuma 
necessidade de se comunicar uns com os outros. 

A outra forma de organizagao de PPEs e o pipeline. Nessa organizagao, cada PPE executa uma etapa de 
processamento e entao alimenta um ponteiro para seu pacote de salda para o proximo PPE no pipeline. Desse 
modo, o pipeline de PPE age de modo muito parecido com os de CPU que estudamos no Capitulo 2. Em ambas 
as organizagoes, os PPEs sao completamente programaveis. 

Em projetos avangados, os PPEs tern multithreading , o que significa que eles tern varios conjuntos de regis- 
tradores e um registrador em hardware que indica qual deles esta em uso no momento. Essa caracterlstica e 
usada para executar varios programas ao mesmo tempo, permitindo que um programa (isto e, um thread ) comute 
apenas alterando a variavel “conjunto atual de registradores”. Mais frequentemente, quando um PPE protela, por 
exemplo, quando referencia a SDRAM (o que toma varios ciclos de clock), ele pode cornu tar instantaneamente 
para um thread executavel. Dessa maneira, um PPE pode conseguir alta utilizagao, mesmo quando bloqueia com 
frequencia para acessar a SDRAM ou realizar alguma outra operagao externa lenta. 

Alem dos PPEs, todos os processadores de rede contem um processador de controle, quase sempre apenas 
uma CPU RISC padronizada de uso geral, para realizar todo o trabalho nao relacionado com processamento de 
pacotes, tal como atualizagao das tabelas de roteamento. Seu programa e dados estao na memoria no chip local. 
Alem do mais, muitos chips de processadores de rede tambem contem um ou mais processadores especializados 
para compatibilizar padroes ou outras operagoes crlticas. Na realidade, esses processadores sao pequenos ASICs 
que sao bons para executar uma unica operagao simples, como consultar um enderego de destino na tabela de 
roteamento. Todos os componentes do processador de rede se comunicam por um ou mais barramentos paralelos 
no chip, que funcionam a velocidades de multigigabits/segundo. 

• Processamento de pacotes 

Quando um pacote chega, ele passa por varios estagios de processamento, independentemente de o proces¬ 
sador de rede ter uma organizagao paralela ou de pipeline. Alguns processadores de rede dividem essas etapas em 
operagoes executadas em pacotes que chegam (seja de uma linha de rede, seja de um barramento de sistema), 
denominadas processamento de entrada, e operagoes executadas em pacotes de salda, denominadas processamento 
de salda. Quando essa distingao e feita, todo pacote passa, primeiro, pelo processamento de entrada e, em seguida, 
pelo de salda. A fronteira entre o processamento de entrada e o de salda e flexlvel porque algumas etapas podem ser 
realizadas em quaisquer das duas partes (por exemplo, coletar estatlsticas de trafego). 

A seguir, discutiremos uma ordenagao potencial das varias etapas, mas observe que nem todos os pacotes 
precisam de todas as etapas e muitas outras ordenagoes sao igualmente validas. 

1. Soma de verificagao. Se o pacote de entrada estiver chegando da Ethernet, o CRC e recalculado para ser 
comparado com o que esta no pacote e ter certeza de que nao ha erro de transmissao algum. Se o CRC 
Ethernet estiver correto, ou nao estiver presente, a soma de verificagao IP e recalculada e comparada 
com a que esta no pacote para ter certeza de que o pacote IP nao foi danificado por um bit defeituoso 
na memoria do remetente apos o calculo da soma de verificagao IP ah efetuado. Se todas as somas 
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estiverem corretas, o pacote e aceito para o processamento seguinte; caso contrario, e simplesmente 
descartado. 

2. Extragao do campo. O cabegalho relevante e analisado e os campos fundamentals sao extraldos. Em um 
switch Ethernet, so o cabegalho Ethernet e examinado, ao passo que, em um roteador IP, o cabegalho 
IP e inspecionado. Os campos fundamentals sao armazenados em registradores (organizagao em PPEs 
paralelos) ou SRAM (organizagao em pipeline ). 

3. Classificagao de pacotes. O pacote e classificado conforme uma serie de regras programaveis. A clas- 
sificagao mais simples e distinguir pacotes de dados dos de controle, mas em geral sao feitas distingoes 
mais refinadas. 

4. Selegao de caminho. A maioria dos processadores de rede tern um caminho rapido especial, otimizado, 
para tratar os pacotes de dados mais comuns; todos os outros pacotes sao tratados de modo diferente, 
muitas vezes pelo processador de controle. Por conseguinte, e preciso escolher o caminho rapido ou o 
caminho lento. 

5. Determinagao da rede de destino. Pacotes IP contem um enderego de destino de 32 bits. Nao e posslvel 
(nem desejavel) ter uma tabela de 2 32 entradas para consultar o destino de cada pacote IP, de modo que 
a parte da extrema esquerda do enderego IP e o numero da rede e o resto especifica a maquina naquela 
rede. Numeros de rede podem ter qualquer comprimento, portanto, determinar o numero da rede de 
destino nao e uma tarefa trivial e piora pelo fato de que varias combinagoes sao posslveis e a mais longa 
e a que conta. Nessa fase, muitas vezes e usado um ASIC por encomenda. 

6. Consulta de rota. Uma vez conhecido o numero da rede de destino, a linha de salda a usar pode ser 
consultada em uma tabela na SRAM. Mais uma vez, nessa etapa pode ser usado um ASIC fabricado por 
encomenda. 

7. Fragmentagao e recons trugao. Programadores gostam de apresentar grandes cargas uteis a camada 
TCP para reduzir o numero de chamadas de sistema necessarias, mas todos, TCP, IP e Ethernet, tern 
tamanhos maximos para os pacotes que podem manusear. Como consequencia desses limites, cargas 
uteis e pacotes talvez tenham de ser fragmentados no lado remetente e seus pedagos reconstruldos no 
lado receptor. Essas sao tarefas que o processador de rede pode realizar. 

8. Computagao. As vezes, e necessario realizar computagao pesada sobre a carga util, por exemplo, com- 
primir/descomprimir dados e criptografar/decriptografar dados. Essas sao tarefas que um processador 
de rede pode realizar. 

9. Gerenciamento de cabegalho. As vezes, e preciso adicionar ou remover cabegalhos, ou modificar 
alguns de seus campos. Por exemplo, o cabegalho IP tern um campo que conta o numero de saltos que 
o pacote ainda pode fazer antes de ser descartado. Toda vez que e retransmitido, esse campo deve ser 
decrementado, algo que o processador de rede pode fazer. 

10. Gerenciamento de fila. Pacotes que chegam e saem muitas vezes tern de ser colocados em filas 
enquanto esperam sua vez de serem processados. Aplicagoes de multimldia talvez precisem de algum 
espagamento de tempo entre pacotes para evitar instabilidade no sinal (jitter). Um firewall ou roteador 
pode precisar distribuir a carga que chega entre varias linhas de salda de acordo com certas regras. 
Todas essas tarefas podem ser executadas pelo processador de rede. 

11. Geragao de soma de verificagao. Pacotes de salda precisam receber uma soma de verificagao. A soma 
de verificagao IP pode ser gerada pelo processador de rede, mas o CRC Ethernet e em geral calculado 
pelo hardware. 

12. Contabilidade. Em alguns casos, e preciso uma contabilidade para o trafego de pacotes, em especial 
quando uma rede esta repassando trafego para outras redes como um servigo comercial. O processador 
de rede pode fazer a contabilidade. 

13. Coleta de dados estatlsticos. Por fim, muitas organizagoes gostam de coletar dados estatlsticos referen- 
tes a seu trafego. Elas querem saber quantos pacotes vieram e quantos foram enviados, em que horarios 
do dia e outras informagoes. O processador de rede e um bom local para fazer essa coleta. 
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• Melhorias de desempenho 

Desempenho e o que importa em processadores de rede. O que pode ser feito para melhora-lo? Porem, antes 
de melhorar o desempenho, temos de definir o que ele significa. Um modo de medigao e o numero de pacotes 
repassados por segundo. Um segundo modo e o numero de bytes transmitidos por segundo. Essas medigoes sao 
diferentes e um esquema que funciona bem para pacotes pequenos pode nao funcionar tao bem para pacotes 
grandes. Em particular, no caso de pacotes pequenos, melhorar o numero de consultas de destino por segundo 
pode ajudar muito, mas, quando se trata de pacotes grandes, pode nao ajudar. 

O modo mais direto de melhorar o desempenho e aumentar a velocidade de clock do processador de rede. 
Claro que o desempenho nao e linear em relagao a velocidade de clock, vis to que tempo de ciclo de memoria e 
outros fa tores tambem o influ enciam. Alem disso, um clock mais rapido significa que mais calor deve ser dissipado. 

Introduzir mais PPEs e paralelismo costuma ser um metodo que da otimos resultados, em especial quando 
a organizagao consiste em PPEs paralelos. Um pipeline mais profundo tambem pode ajudar, mas so se o trabalho 
de processar um pacote puder ser subdividido em porgoes menores. 

Outra tecnica e adicionar processadores especializados ou ASICs para tratar operagoes especlficas, que tomam 
muito tempo e sao realizadas repetidas vezes, e que podem ser executadas com maior rapidez em hardware do que 
em software. Consultas, calculos de somas de verificagao e criptografia estao entre as muitas candidatas. 

Adicionar mais barramentos internos e aumentar a largura dos barramentos existentes pode ajudar a ganhar 
velocidade porque os pacotes passam pelo sistema com maior rapidez. Por fim, substituir SDRAM por SRAM 
costuma ser entendido como algo que melhora o desempenho, mas, por certo, tern um prego. 

E claro que ha muito mais a dizer sobre processadores de rede. Algumas references sao Freitas et al., 2009; 
Lin et al., 2010; e Yamamoto e Nakao, 2011. 

8.2.2 Processadores graficos 

Uma segunda area na qual coprocessadores sao usados e o tratamento de processamento grafico de alta 
resolugao, como renderizagao 3D. CPUs comuns nao sao muito boas nas computagoes macigas necessarias para 
processar as grandes quantidades de dados requeridas nessas aplicagoes. Por essa razao, alguns PCs atuais e a 
maioria dos PCs futuros serao equipados com GPUs (Graphics Processing Units - unidades de processamento 
grafico) para os quais passarao grandes porgoes do processamento geral. 

• A GPU Fermi NVIDIA 

Estudaremos essa area cada vez mais importante por meio de um exemplo: a GPU Fermi NVIDIA, uma 
arquitetura usada em uma famllia de chips de processamento grafico que estao disponlveis em diversas veloci- 
dades e tamanhos. A arquitetura da GPU Fermi aparece na Figura 8.17. Ela e organizada em 16 SMs (Streaming 
Multiprocessors - multiprocessadores streaming), tendo sua propria cache nlvel 1 privada com alta largura de 
banda. Cada multiprocessador streaming contem 32 nucleos CUDA, para um total de 512 nucleos CUDA por 
GPU Fermi. Um nucleo CUDA (Compute Unified Device Architecture - arquitetura de elemento unificado de 
computagao) e um processador simples que da suporte a calculos com inteiros e ponto flutuante com precisao 
simples. Um unico SM com 32 nucleos CUDA e ilustrado na Figura 2.7. Os 16 SMs compartilham acesso a uma 
unica cache nlvel 2 unificada de 768 KB, que esta conectada a uma interface DRAM de multiplas portas. A inter¬ 
face do processador hospedeiro oferece um caminho de comunicagao entre o sistema hospedeiro e a GPU por 
meio de uma interface de barramento DRAM compartilhada, em geral por meio de uma interface PCI-Express. 

A arquitetura Fermi e projetada para executar, com eficiencia, codigos de processamento de graficos, video 
e imagens, que costumam ter muitos calculos redundantes espalhados por muitos pixels. Por causa dessa redun¬ 
dance, os multiprocessadores streaming, embora capazes de executar 16 operagoes por vez, exigem que todas as 
operagoes executadas em um unico ciclo sejam identicas. Esse estilo de processamento e denominado computa¬ 
gao SIMD (Single-Instruction Multiple Data - instrugao unica, multiplos dados), e tern a importante vantagem 
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de que cada SM busca e decodifica apenas uma unica instrugao a cada ciclo. Somente compartilhando o proces- 
samento de instrugoes por todos os nucleos em um SM e que a NVIDIA consegue colocar 512 nucleos em uma 
unica pastilha de sillcio. Se os programadores puderem aproveitar todos os recursos de computagao (sempre um 
“se” muito grande e incerto), entao o sistema oferece vantagens computacionais significativas sobre arquiteturas 
escalares tradicionais, como o Core i7 ou o OMAP4430. 


Figura 8.17 A arquitetura da GPU Fermi. 


Multiprocessador 

streaming N u C leoCUDA 



Os requisitos de processamento SIMD dentro dos SMs impoem restrigoes sobre o tipo de codigo que os pro¬ 
gramadores podem executar sobre essas unidades. De fa to, cada nucleo CUDA precisa estar rodando o mesmo 
codigo em sincronismo para alcangar 16 operagoes ao mesmo tempo. Para aliviar esse peso ao programador, a 
NVIDIA desenvolveu a linguagem de programagao CUDA, a qual especifica o paralelismo do programa usando 
threads. Threads sao entao agrupados em blocos, designados a processadores streaming. Desde que cada thread em 
um bloco execute exatamente a mesma sequencia de codigo (ou seja, todos os desvios tomem a mesma decisao), 
ate 16 operagoes serao executadas em simultaneo (supondo que haja 16 threads prontos para executar). Quando 
os threads em um SM tomarem decisoes de desvio diferentes, havera um efeito de diminuigao de desempenho, 
denominado divergencia de desvio, forgando os threads com caminhos de codigo diferentes a serem executados de 
modo serial no SM. A divergencia de desvio reduz o paralelismo e atrasa o processamento da GPU. Felizmente, ha 
uma grande faixa de atividades no processamento grafico e de imagens, que podera evitar a divergencia de desvio e 
alcangar bons ganhos de velocidade. Tambem muitos outros codigos se beneficiaram da arquitetura no estilo SIMD 
sobre processadores graficos, como imagens medicas, resolugao de prova, previsao financeira e analise de graficos. 
Essa ampliagao das aplicagoes em potencial para GPUs lhes deu o novo apelido de GPGPUs (General-Purpose 
Graphics Processing Units - unidades de processamento grafico de uso geral). 

Com 512 nucleos CUDA, a GPU Fermi pararia sem uma largura de banda de memoria significativa. Para 
fornecer essa largura de banda, a GPU Fermi implementa uma hierarquia de memoria moderna, conforme 
ilustrado na Figura 8.18. Todos os SMs tern uma memoria compartilhada dedicada e uma cache de dados 
nivel 1 privada. A memoria compartilhada dedicada e enderegada diretamente pelos nucleos CUDA, e oferece 





















































































































































































































































































































































































































































































































































































































































































































Capitulo 8 • Arquiteturas de computadores paralelos 


461 


compartilhamento rapido de dados entre threads dentro de um unico SM. A cache de nlvel 1 agiliza os acessos 
aos dados da DRAM. Para acomodar a grande variedade de uso dos dados do programa, os SMs podem ser 
configurados com memoria compartilhada de 16 KB e cache nlvel 1 de 48 KB ou memoria compartilhada de 
48 KB e cache nlvel 1 de 16 KB. Todos os SMs compartilham uma unica cache nlvel 2 de 768 KB. A cache nlvel 
2 oferece acesso mais rapido aos dados da DRAM que nao couberem nas de nlvel 1. A cache nlvel 2 tambem 
oferece compartilhamento entre SMs, embora esse modo seja muito mais lento do que o que ocorre dentro da 
memoria compartilhada de um SM. Alem da cache nivel 2 esta a DRAM, que mantem os dados restantes, ima- 
gens e texturas, usados por programas rodando na GPU Fermi. Programas eficientes tentarao evitar o acesso a 
DRAM a todo custo, pois um unico acesso pode levar centenas de ciclos para concluir. 


Figura 8.18 


Hierarquia de memoria da GPU Fermi. 



Para um programador esperto, a GPU Fermi representa, em termos de computagao, uma das plataformas 
mais capazes que ja foram criadas. Uma unica GPU GTX 580 baseada em Fermi rodando a 772 MHz com 512 
nucleos CUDA pode alcangar uma taxa de computagao sustentada de 1,5 teraflop, consumindo 250 watts de 
potencia. Essa estatistica e ainda mais impressionante quando se considera que o prego de varejo de uma GPU 
GTX 580 e menor que 600 dolares. Por questao de comparagao historica, em 1990, o computador mais rapido 
do mundo, o Cray-2, tinha um desempenho de 0,002 teraflop e um prego (em dolares ajustados pela inflagao) de 
30 milhoes de dolares. Ele tambem preenchia uma sala de tamanho modesto e vinha com um sistema de resfria- 
mento liquido para dissipar os 150 kW de potencia que consumia. O GTX 580 tern 750 vezes mais potencia para 
1/50.000 do prego, enquanto consome 1/600 dessa energia. Nao e um mau negocio. 

8.2.3 Criptoprocessadores 

Uma terceira area na qual os coprocessadores sao populares e seguranga, em especial seguranga em redes. 
Quando uma conexao e estabelecida entre um cliente e um servidor, em muitos casos eles devem primeiro se 
autenticar mutuamente. Entao, e preciso estabelecer uma conexao segura e criptografada entre eles, para que os 
dados sejam transferidos com seguranga, frustrando quaisquer bisbilhoteiros que poderiam estar invadindo a linha. 

O problema da seguranga e que, para consegui-la, e preciso usar criptografia, a qual faz uso muito 
intensivo de computagao. Ha dois tipos gerais de criptografia, denominados criptografia de chave simetrica 
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e criptografia de chave publica. A primeira e baseada na mistura completa de bits, algo equivalente a jogar 
uma mensagem dentro de um liquidificador. A ultima e baseada em multiplicagao e exponenciagao de grandes 
numeros (por exemplo, 1.024 bits) e consome enormes quantidades de tempo. 

Para tratar da computagao necessaria para criptografar os dados com seguranga para transmissao ou arma- 
zenamento, varias empresas produziram coprocessadores criptograficos, as vezes na forma de placas de expansao 
para barramento PCI. Esses coprocessadores tern um hardware especial que os habilita a executar a criptografia 
necessaria muito mais rapido do que poderia uma CPU comum. Infelizmente, uma discussao detalhada do modo 
de funcionamento dos criptoprocessadores exigiria, primeiro, explicar muita coisa sobre a criptografia em si, o 
que esta fora do escopo deste livro. Se o leitor desejar mais informagoes sobre coprocessadores criptograficos, 
pode consultar Gaspar et al., 2010; Haghighizadeh et al., 2010; e Shoufan et al., 2011. 


8.3 Multiprocessadores de memoria compartilhada 

Agora ja vimos como se pode acrescentar paralelismo a chips unicos e a sistemas individuais adicionando 
um coprocessador. A proxima etapa e ver como multiplas CPUs totalmente desenvolvidas podem ser combinadas 
para formar sistemas maiores. Sistemas com varias CPUs podem ser divididos em multiprocessadores e multicom- 
putadores. Apos vermos com atengao o que esses termos de fa to significant, estudaremos primeiro multiproces¬ 
sadores e, em seguida, multicomputadores. 

8.3.1 Multiprocessadores versus multicomputadores 

Em qualquer sistema de computagao paralelo, CPUs que trabalham em partes diferentes do mesmo servigo 
devem se comunicar umas com as outras para trocar informagoes. O modo exato como elas devem fazer isso e 
assunto de muito debate na comunidade da arquitetura de computadores. Dois projetos distintos foram propostos 
e implementados: multiprocessadores e multicomputadores. A diferenga fundamental entre os dois e a presenga 
ou ausencia de memoria compartilhada. Essa diferenga interfere no modo como sao projetados, construldos e 
programados, bem como em sua escala e prego. 

• Multiprocessadores 

Um computador paralelo no qual todas as CPUs compartilham uma memoria comum e denominado um 
multiprocessador, como indicado simbolicamente na Figura 8.19. Todos os processos que funcionam juntos 
em um multiprocessador podem compartilhar um unico espago de enderego virtual mapeado para a memoria 
comum. Qualquer processo pode ler ou escrever uma palavra de memoria apenas executando uma instrugao 
LOAD ou STORE. Nada mais e preciso. O hardware faz o resto. Dois processos podem se comunicar pelo simples 
ato de um deles escrever dados para a memoria e o outro os ler de volta. 

A capacidade de dois (ou mais) processos se comunicarem apenas lendo e escrevendo na memoria e a razao 
por que os multiprocessadores sao populares. E um modelo facil de entender pelos programadores e e aplicavel a 
uma ampla faixa de problemas. Considere, por exemplo, um programa que inspeciona uma imagem de mapa de bits 
e relaciona todos os objetos ali encontrados. Uma copia da imagem e mantida na memoria, como mostra a Figura 
8.19(b). Cada uma das 16 CPUs executa um unico processo, ao qual foi designada uma das 16 segoes a analisar. Nao 
obstante, cada processo tern acesso a imagem inteira, que e essencial, visto que alguns objetos podem ocupar varias 
segoes. Se um processo descobrir que um de seus objetos se estende para alem da fronteira de uma segao, ele apenas 
segue o objeto na proxima segao lendo as palavras dessa segao. Nesse exemplo, alguns objetos serao descobertos por 
varios processos, portanto, e preciso certa coordenagao no final para determinar quantas casas, arvores e avioes ha. 

Como todas as CPUs em um multiprocessador veem a mesma imagem de memoria, ha somente uma copia 
do sistema operacional. Por conseguinte, ha somente um mapa de paginas e uma tabela de processos. Quando 
um processo bloqueia, sua CPU salva seu estado nas tabelas do sistema operacional e entao consulta essas tabelas 
para achar outro processo para executar. E essa imagem de unico sistema que distingue um multiprocessador de 
um multicomputador, no qual cada computador tern sua propria copia do sistema operacional. 
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Figura 8.19 (a) Multiprocessador com 16 CPUs que compartilham uma memoria comum. (b) Imagem repartida em 16 secoes, cada qual 

analisada por uma CPU diferente. 




(a) (b) 


Um multiprocessador, como todos os computadores, deve ter dispositivos de E/S, como discos, adaptado- 
res de rede e outros equipamentos. Em alguns sistemas multiprocessadores, somente certas CPUs tern acesso 
aos dispositivos de E/S e, por isso, tern uma fungao de E/S especial. Em outros, cada CPU tern igual acesso a 
todo dispositivo de E/S. Quando cada CPU tern igual acesso a todos os modulos de memoria e a todos os dispo¬ 
sitivos de E/S e e tratada pelo sistema operacional como intercambiavel com as outras, o sistema e denominado 
SMP (Symmetric Multiprocessor - multiprocessador simetrico). 


• Multicomputadores 

O segundo projeto posslvel para uma arquitetura paralela e um projeto no qual toda CPU tern sua propria 
memoria privada, acesslvel somente a ela mesma e a nenhuma outra. Esse projeto e denominado multicomputador 
ou, as vezes, sistema de memoria distribuida, e e ilustrado na Figura 8.20(a). O aspecto fundamental de um multi¬ 
computador que o distingue de um multiprocessador e que a CPU em um multicomputador tern sua propria memoria 
local privada, a qual pode acessar apenas executando instrugoes LOAD e STORE, mas que nenhuma outra CPU pode 
acessar usando instrugoes LOAD e STORE. Assim, multiprocessadores tern um unico espago de enderego flsico com- 
partilhado por todas as CPUs, ao passo que multicomputadores tern um espago de enderego flsico para cada CPU. 

* Figura 8.20 (a) Multicomputador com 16 CPUs, cada uma com sua propria memoria privada. (b) Imagem de mapa de bits da figura 

8.19 dividida entre as 16 memorias. 



(a) (b) 
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Uma vez que as CPUs em um multicomputador nao podem se comunicar apenas lendo e escrevendo na 
memoria comum, elas precisam de um mecanismo de comunicagao diferente. O que elas fazem e passar mensa- 
gens uma para outra usando a rede de interconexao. Entre os exemplos de multicomputadores podemos citar o 
IBM BlueGene/L, o Red Storm e o cluster Google. 

A ausencia de memoria compartilhada em hardware em um multicomputador tern importantes implicagoes 
para a estrutura do software. Ter um unico espago de enderego virtual do qual e para o qual todos os processos 
podem ler e escrever de e para toda a memoria apenas executando instrugoes LOAD e STORE e imposslvel em um 
multicomputador. Por exemplo, se a CPU 0 (a que esta no canto superior esquerdo) da Figura 8.19(b) descobrir 
que parte de seu objeto se estende ate a segao designada a CPU 1, ainda assim ela continua a ler memoria para 
acessar a cauda do aviao. Por outro lado, se a CPU 0 da Figura 8.20(b) fizer a mesma descoberta, ela nao pode 
simplesmente ler a memoria da CPU. Em vez disso, ela precisa fazer algo bem diferente para obter os dados de 
que necessita. 

Em particular, ela tern de descobrir (de algum modo) qual CPU tern os dados de que precisa e enviar 
a essa CPU uma mensagem requisitando uma copia dos dados. Em seguida, normalmente ela bloqueara ate 
que a requisigao seja atendida. Quando a mensagem chegar a CPU 1, o software ali presente tern de analisa-la 
e enviar os dados necessarios. Quando a mensagem de resposta voltar a CPU 0, o software e desbloqueado e 
pode continuar a executar. 

Em um multicomputador, a comunicagao entre processos costuma usar primitivas de software como send e 
receive. Isso da ao software uma estrutura diferente e muito mais complicada do que para um multiprocessador. 
Tambem significa que subdividir os dados corretamente e posiciona-los em localizagoes otimas e uma questao 
importante. Nao e tao fundamental em um multiprocessador, visto que o posicionamento nao afeta a corregao ou 
a programabilidade, embora possa impactar o desempenho. Em suma, programar um multicomputador e muito 
mais diflcil do que programar um multiprocessador. 

Nessas condigoes, por que alguem construiria multicomputadores, quando multiprocessadores sao mais 
faceis de programar? A resposta e facil: e muito mais simples e mais barato construir grandes multicompu¬ 
tadores do que multiprocessadores com o mesmo numero de CPUs. Executar uma memoria compartilhada, 
ainda que seja para algumas centenas de CPUs, e uma empreitada substancial, ao passo que construir um 
multicomputador com 10 mil CPUs, ou mais, e direto. Mais adiante neste capltulo estudaremos um multi¬ 
computador com mais de 50 mil CPUs. 

Portanto, temos um dilema: multiprocessadores sao diflceis de construir, mas faceis de programar, enquan- 
to multicomputadores sao faceis de construir, mas diflceis de programar. Essa observagao gerou muito esforgo 
para construir sistemas hlbridos que sao relativamente faceis de construir e relativamente faceis de programar. 
Esse trabalho levou a percepgao de que a memoria compartilhada pode ser executada de varios modos, cada qual 
com seu proprio conjunto de vantagens e desvantagens. Na verdade, grande parte da pesquisa atual na area de 
arquiteturas paralelas esta relacionada a convergencia entre arquiteturas de multiprocessador e multicomputador 
para formas hlbridas que combinam as forgas de cada uma. Nesse caso, o Santo Graal e achar projetos que sejam 
escalaveis, isto e, que continuem a funcionar bem a medida que mais e mais CPUs sejam adicionadas. 

Uma tecnica para a construgao de sistemas hlbridos e baseada no fato de que sistemas de computagao 
modernos nao sao monollticos, mas construldos como uma serie de camadas - o tema deste livro. Essa percep¬ 
gao abre a possibilidade de implementar memoria compartilhada em qualquer uma das varias camadas, como 
ilustra a Figura 8.21. Na Figura 8.21(a), vemos a memoria compartilhada executada pelo hardware como um 
verdadeiro multiprocessador. Nesse projeto, ha uma unica copia do sistema operacional com um unico conjun¬ 
to de tabelas, em particular, a tabela de alocagao de memoria. Quando um processo precisa de mais memoria, 
recorre ao sistema operacional, que entao procura em sua tabela uma pagina livre e mapeia a pagina para o 
espago de enderego do processo chamador. No que concerne ao sistema operacional, ha uma unica memoria, e 
ele monitora em software qual processo possui qual pagina. Ha muitos modos de implementar memoria com¬ 
partilhada em hardware, como veremos mais adiante. 
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Figura 8.21 Varias camadas onde a memoria compartilhada pode ser implementada. (a) Hardware, (b) Sistema operacional. (c) Sistema 
de execucao da linguagem. 
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Uma segunda possibilidade e usar hardware de multicomputador e fazer com que o sistema operacional 
simule memoria compartilhada proporcionando um unico espago de enderego virtual de compartilhamento de 
paginas no ambito do sistema inteiro. Nessa tecnica, denominada DSM (Distributed Shared Memory - memoria 
compartilhada distribulda) (Li e Hudak, 1989), cada pagina esta localizada em uma das memorias da Figura 
8.20(a). Cada maquina tern memoria virtual e tabelas de paginas proprias. Quando uma CPU faz uma LOAD ou 
uma STORE em uma pagina que ela nao tern, ocorre uma excegao para o sistema operacional. Este, entao, localiza 
a pagina e solicita a CPU que a contem no momento que desmapeie a pagina e a envie pela interconexao de rede. 
Quando chega, a pagina e mapeada para dentro e a instrugao que falhou e reiniciada. Na verdade, o sistema ope¬ 
racional esta apenas atendendo faltas de paginas a partir de memorias remotas em vez de a partir de disco. Para o 
usuario, parece que a maquina tern memoria compartilhada. Examinaremos a DSM mais adiante neste capitulo. 

Uma terceira possibilidade e fazer com que um sistema de execugao em nlvel de usuario, possivelmente 
especlfico para uma linguagem, execute uma forma de memoria compartilhada. Nessa abordagem, a linguagem de 
programagao prove algum tipo de abstragao de memoria compartilhada, que entao e realizada pelo compilador e 
pelo sistema de execugao. Por exemplo, o modelo Linda e baseado na abstragao de um espago compartilhado de 
tuplas (registros de dados que contem uma colegao de campos). Processos em qualquer maquina podem produzir 
entrada de uma tupla a partir do espago compartilhado de tuplas ou produzir salda de uma tupla para o espago 
compartilhado de tuplas. Como o acesso ao espago de tuplas e todo controlado em software (pelo sistema de 
execugao Linda), nao e preciso nenhum hardware especial ou suporte de sistema operacional. 

Outro exemplo de memoria compartilhada especlfica de linguagem executada pelo sistema de execugao e 
o modelo Orca de objetos de dados compartilhados. Em Orca, os processos compartilham objetos genericos em 
vez de apenas tuplas e podem executar neles metodos especlficos de objetos. Quando um metodo muda o estado 
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interno de um objeto, cabe ao sistema de execugao garantir que todas as copias do objeto em todas as maqui- 
nas sejam atualizadas simultaneamente. Mais uma vez, como objetos sao um conceito estritamente de software, 
a implementagao pode ser feita pelo sistema de execugao sem ajuda do sistema operacional ou do hardware. 
Examinaremos ambos, Linda e Orca, mais adiante neste capltulo. 

• Taxonomia de computadores paralelos 

Agora, vamos voltar a nosso topico principal, a arquitetura de computadores paralelos. Muitos tipos ja foram 
propostos e construldos ao longo dos anos. Portanto, e natural perguntar se ha alguma maneira de categoriza-los 
em uma taxonomia. Muitos pesquisadores tentaram, com resultados mistos (Flynn, 1972; e Treleaven, 1985). 
Infelizmente, o Carl von Linne 1 da computagao paralela ainda esta para surgir. O esquema de Flynn, o unico que e 
muito usado, e dado na Figura 8.22, e mesmo este e, na melhor das hipoteses, uma aproximagao muito grosseira. 


Figura 8.22 


Taxonomia de Flynn para computadores paralelos. 
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A classificagao de Flynn e baseada em dois conceitos - fluxos de instrugoes e fluxos de dados. Um fluxo de 
instrugoes corresponde a um contador de programa. Um sistema com n CPUs tern n contadores de programa, por 
conseguinte, n fluxos de instrugoes. 

Um fluxo de dados consiste em um conjunto de operandos. Por exemplo, em um sistema de previsao do tempo, 
cada um de um grande numero de sensores poderia emitir um fluxo de temperaturas em intervalos regulares. 

Os fluxos de instrugoes e de dados sao, ate certo ponto, independentes, portanto, existem quatro combina- 
goes, como relacionadas na Figura 8.22. SISD e apenas o classico computador sequencial de Von Neumann. Ele 
tern um fluxo de instrugoes, um fluxo de dados e faz uma coisa por vez. Maquinas SIMD tern uma unica unidade 
de controle que emite uma instrugao por vez, mas elas tern multiplas ULAs para executa-las em varios conjun- 
tos de dados simultaneamente. O ILLIAC IV (Figura 2.7) e o prototipo de tais maquinas. Elas estao ficando 
cada vez mais raras, mas computadores convencionais as vezes tern algumas instrugoes SIMD para processamento 
de material audiovisual. As instrugoes SSE do Core i7 sao SIMD. Nao obstante, ha uma nova area na qual algumas 
das ideias do mundo SIMD estao desempenhando um papel: processadores de fluxo. Essas maquinas sao proje- 
tadas especificamente para tratar demandas de entrega de multimldia e podem se tornar importantes no futuro 
(Kapasi et al., 2003). 

As maquinas MISD sao uma categoria um tanto estranha, com multiplas instrugoes operando no mesmo 
dado. Nao esta claro se elas existem, embora haja quern considere MISD as maquinas com pipeline. 

Por fim, temos MIMD, que sao apenas multiplas CPUs independentes operando como parte de um sistema 
maior. A maioria dos processadores paralelos cai nessa categoria. Ambos, multiprocessadores e multicomputado- 
res sao maquinas MIMD. 


1 Carl von Linne (1707-1778) foi o biologo sueco que inventou o sistema usado hoje para classificar todas as plantas e animais em reino, filo, 
classe, ordem, familia, genero e especie. 
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A taxonomia de Flynn para aqui, mas nos a ampliamos na Figura 8.23. A SIMD foi subdividida em dois sub- 
grupos. O primeiro e para supercomputadores numericos e outras maquinas que operam sobre vetores, efetuando 
a mesma operagao em cada elemento do vetor. O segundo e para maquinas do tipo paralelo como ILLIAC IV, na 
qual uma unidade mestra de controle transmite instrugoes para muitas ULAs independentes. 


Figura 8.23 


Taxonomia de computadores paralelos. 
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Em nossa taxonomia, a categoria MIMD foi subdividida em multiprocessadores (maquinas de memoria 
compartilhada) e multicomputadores (maquinas de troca de mensagens). Existem tres tipos de multiprocessado¬ 
res, distinguidos pelo modo como a memoria compartilhada e neles implementada. Eles sao denominados UMA 
(Uniform Memory Access - acesso uniforme a memoria), NUMA (NonUniform Memory Access - acesso nao 
uniforme a memoria) e COMA (Cache Only Memory Access - acesso somente a memoria cache). Essas cate- 
gorias existem porque, em grandes multiprocessadores, a memoria costuma ser subdividida em varios modulos. 
A propriedade distintiva das maquinas UMA e que cada CPU tern o mesmo tempo de acesso a todos os modulos de 
memoria. Ou seja, cada palavra de memoria pode ser lida tao depressa quanto qualquer outra. Se isso for tecnica- 
mente imposslvel, a velocidade das references mais rapidas e reduzida para que se compatibilizem com as mais 
lentas, portanto, os programadores nao veem a diferenga. E isso que “uniforme” significa nesse caso. Essa unifor- 
midade torna o desempenho previslvel, um fator importante para escrever codigo eficiente. 

Por comparagao, essa propriedade nao e valida em um multiprocessador NUMA. Muitas vezes, ha um modu¬ 
lo de memoria proximo a cada CPU e acessa-lo e mais rapido do que acessar os distantes. O resultado e que, 
por questoes de desempenho, o local onde o codigo e os dados sao posicionados e importante. Maquinas COMA 
tambem sao nao uniformes, mas de um modo diferente. Estudaremos detalhadamente cada um desses tipos e 
suas subcategorias mais adiante. 

A outra categoria principal de maquinas MIMD consiste nos multicomputadores, que, diferente dos multi¬ 
processadores, nao tern memoria primaria compartilhada no nivel da arquitetura. Em outras palavras, o sistema 
operacional em uma CPU de multicomputador nao pode acessar memoria ligada a uma CPU diferente apenas exe- 
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cutando uma instrugao LOAD. Ela tem de enviar uma mensagem expllcita e esperar uma resposta. A capacidade 
do sistema operacional de ler uma palavra distante apenas executando uma LOAD e o que distingue multipro- 
cessadores de multicomputadores. Como mencionamos antes, mesmo em um multicomputador, programas do 
usuario podem ter a capacidade de acessar a memoria remota usando instrugoes LOAD e STORE, mas essa ilusao 
e suportada pelo sistema operacional, e nao pelo hardware. Essa diferenga e sutil, mas muito importante. Como 
multicomputadores nao tem acesso direto a memoria remota, as vezes eles sao denominados maquinas NORMA 
(NO Remote Memory Access - sem acesso a memoria remota). 

Os multicomputadores podem ser divididos em duas categorias gerais. A primeira contem os MPPs 
(Massively Parallel Processors - processadores de paralelismo macigo), que sao supercomputadores caros que 
consistem em muitas CPUs fortemente acopladas por uma rede de interconexao proprietaria de alta velocidade. 
O IBM SP/3 e um exemplo bem conhecido no mercado. 

A outra categoria consiste em PCs ou estagoes de trabalho comuns, possivelmente montados em estantes e 
conectados por tecnologia de interconexao comercial, de prateleira. Em termos de logica, nao ha muita diferenga, 
mas supercomputadores enormes que custam muitos milhoes de dolares sao usados de modo diferente das redes 
de PCs montadas pelos usuarios por uma fragao do prego de um MPP. Essas maquinas caseiras sao conhecidas 
por varios nomes, entre eles NOW (Network of Workstations - rede de estagoes de trabalho), COW (Cluster 
of Workstations - grupo de estagoes de trabalho), ou, as vezes, apenas cluster (grupo). 

8.3.2 Semantica da memoria 

Ainda que todos os multiprocessadores apresentem as CPUs a imagem de um unico espago de enderego 
compartilhado, muitas vezes estao presentes muitos modulos de memoria, cada um contendo alguma porgao da 
memoria flsica. As CPUs e memorias muitas vezes sao conectadas por uma complexa rede de interconexao, como 
discutimos na Segao 8.E2. Diversas CPUs podem estar tentando ler uma palavra de memoria ao mesmo tempo 
em que varias outras CPUs estao tentando escrever a mesma palavra, e algumas das mensagens de requisigao 
podem ser ultrapassadas por outras em transito e ser entregues em uma ordem diferente daquela em que foram 
emitidas. Alem desse problema, ha a existencia de multiplas copias de alguns blocos de memoria (por exemplo, 
em caches), o que pode resultar em caos com muita facilidade, a menos que sejam tomadas medidas rigorosas 
para evita-lo. Nesta segao, veremos o que de fa to significa memoria compartilhada e como memorias podem reagir 
razoavelmente nessas circunstancias. 

Um modo de ver a semantica da memoria e como um contrato entre o software e o hardware de memoria 
(Adve e Hill, 1990). Se o software concordar em obedecer a certas regras, a memoria concorda em entregar 
certos resultados e, entao, a discussao fica centrada em quais sao essas regras. Elas sao denominadas modelos 
de consistencia e muitos modelos diferentes ja foram propostos e executados. 

Para dar uma ideia do problema, suponha que a CPU 0 escreve o valor 1 em alguma palavra de memoria e, 
um pouco mais tarde, a CPU 1 escreve o valor 2 para a mesma palavra. Agora, a CPU 2 le a palavra e obtem o 
valor 1. O proprietario do computador deve levar sua maquina para consertar? Isso depende do que a memoria 
prometeu (seu contrato). 

• Consistencia estrita 

O modelo mais simples e o da consistencia estrita. Nele, qualquer leitura para uma localizagao x sempre 
retorna o valor da escrita mais recente para x. Programadores adoram esse modelo, mas, na verdade, ele e efeti- 
vamente imposslvel de implementar de qualquer outro modo que nao seja ter um unico modulo de memoria que 
apenas atende a todas as requisigoes segundo a polltica primeiro a chegar, primeiro a ser atendido, sem cache 
nem duplicagao de dados. Essa implementagao transformaria a memoria em um imenso gargalo e, portanto, nao 
e uma Candidata seria, infelizmente. 

• Consistencia sequencial 

O segundo melhor e um modelo denominado consistencia sequencial (Lamport, 1979). Nesse caso, a ideia 
e que, na presenga de multiplas requisigoes de leitura (read) e escrita (write), o hardware escolhe (sem determi- 
nismo) alguma intercalagao de todas as requisigoes, mas todas as CPUs veem a mesma ordem. 
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Para entender o que isso significa, considere um exemplo. Suponha que a CPU 1 escreve o valor 100 para a 
palavra x, e 1 ns mais tarde a CPU 2 escreve o valor 200 para a palavra x. Agora, suponha que 1 ns apos a segunda 
escrita ter sido emitida (mas nao necessariamente ainda conclulda), duas outras CPUs, 3 e 4, leem a palavra x 
duas vezes cada uma em rapida sucessao, conforme mostra a Figura 8.24(a). Tres posslveis ordenagoes dos seis 
eventos (duas escritas e quatro leituras) sao mostradas na Figura 8.24 (b)-(d), respectivamente. Na Figura 8.24(b), 
a CPU 3 obtem (200, 200) e a CPU 4 obtem (200, 200). Na Figura 8.24(c), elas obtem (100, 200) e (200, 200), 
respectivamente. Na Figura 8.24(d), elas obtem (100, 100) e (200, 100), respectivamente. Todas essas sao validas, 
bem como algumas outras possibilidades que nao sao mostradas. Observe que nao existe um unico valor “correto”. 


Figura 8.24 


(a) Duas CPUs escrevendo e duas CPUs lendo uma palavra de memoria em comum. (b)-(d) Tres modos possiveis de interca- 
lar as duas escritas e as quatro leituras em relacao ao tempo. 
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Contudo - e essa e a essencia da consistencia sequencial -, nao importa o que acontega, uma memoria 
sequencialmente consistente nunca permitira que a CPU 3 obtenha (100, 200) enquanto a CPU 4 obtem (200, 
100). Se isso ocorresse, significaria que, de acordo com a CPU 3, a escrita de 100 pela CPU 1 concluiu apos a 
escrita de 200 pela CPU 2. Tudo bem. Mas tambem significaria que, de acordo com a CPU 4, a escrita de 200 
pela CPU 2 concluiu antes da escrita de 100 pela CPU 1. Em si, esse resultado tambem e posslvel. O problema e 
que a consistencia sequencial garante uma unica ordenagao global de todas as escritas, que e visivel para todas as 
CPUs. Se a CPU 3 observar que 100 foi escrito primeiro, entao a CPU 4 tambem deve ver essa ordem. 

Embora a consistencia sequencial nao seja uma regra tao poderosa quanto a estrita, ainda e muito util. 
Na verdade, ela diz que, quando multiplos eventos acontecem concorrentemente, ha alguma ordem verdadeira na 
qual eles ocorrem, talvez determinada pela temporizagao e pelo acaso, mas existe uma ordenagao verdadeira e 
todos os processadores observam essa mesma ordem. Embora essa afirmativa talvez parega obvia, a seguir discu- 
tiremos modelos de consistencia que nem isso garantem. 

• Consistencia de processador 

Um modelo de consistencia menos rigoroso, mas que e mais facil de implementar em grandes multiproces- 
sadores, e a consistencia de processador (Goodman, 1989). Ele tern duas propriedades: 

1. Escritas por qualquer CPU sao vistas por todas as CPUs na ordem em que foram emitidas. 

2. Para cada palavra de memoria, todas as CPUs veem todas as escritas para ela na mesma ordem. 


Esses dois pontos sao importantes. O primeiro diz que, se a CPU 1 emitir escritas com valores 1A, IB e 1C para 
alguma localizagao de memoria nessa sequencia, entao todos os outros processadores as veem nessa ordem tambem. 
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Em outras palavras, qualquer outro processador em um lago restrito que observasse 1A, IB e 1C lendo as pala- 
vras escritas nunca vera o valor escrito por IB e depois o escrito por 1A, e assim por diante. O segundo ponto e 
necessario para exigir que toda palavra de memoria tenha um valor nao amblguo apos varias CPUs escreverem 
para ela e, por fim, pararem. Todos tern de concordar sobre qual veio por ultimo. 

Mesmo com essas restrigoes, o projetista tern muita flexibilidade. Considere o que acontece se a CPU 2 emitir 
escritas 2A, 2B e 2C concorrentemente com as tres escritas da CPU 1. Outras CPUs que estao ocupadas lendo a 
memoria observarao alguma intercalagao de seis escritas, tal como 1A, IB, 2A, 2B, 1C, 2C ou 2A, 1A, 2B, 2C, IB, 
1C ou muitas outras. A consistencia de processador nao garante que toda CPU ve a mesma ordenagao, diferente 
da consistencia sequencial, que da essa garantia. Assim, e perfeitamente legltimo que o hardware se comporte de 
tal maneira que algumas CPUs veem a primeira ordenagao mencionada, algumas veem a segunda e algumas veem 
ainda outras. O que e garantido e que nenhuma CPU vera a sequencia na qual IB vem antes de 1A e assim por 
diante. A ordem com que cada CPU faz suas escritas e observada em todos os lugares. 

Vale a pena notar que alguns autores definem consistencia de processador de modo diferente e nao requerem 
a segunda condigao. 

• Consistencia fraca 

Nosso proximo modelo, a consistencia fraca, nem mesmo garante que escritas de uma unica CPU sejam 
vistas em ordem (Dubois et al., 1986). Em uma memoria fracamente consistente, uma CPU poderia ver 1A antes 
de IB e outra CPU poderia ver 1A depois de IB. Contudo, para colocar alguma ordem no caos, tais memorias 
tern variaveis de sincronizagao ou uma operagao de sincronizagao. Quando uma sincronizagao e executada, todas 
as escritas pendentes sao terminadas e nenhuma nova e iniciada ate que todas as antigas - e a propria sincroni¬ 
zagao - estejam concluldas. Na verdade, uma sincronizagao “descarrega o pipeline ” e leva a memoria a um estado 
estavel sem nenhuma operagao pendente. Operagoes de sincronizagao sao, em si, sequencialmente consistentes, 
isto e, quando multiplas CPUs as emitem, alguma ordem e escolhida, mas todas as CPUs veem a mesma ordem. 

Em consistencia fraca, o tempo e dividido em epocas bem definidas delimitadas pelas sincronizagoes 
(sequencialmente consistentes), como ilustra a Figura 8.25. Nenhuma ordem relativa e garantida para 1A e IB e 
diferentes CPUs podem ver as duas escritas em ordens diferentes, isto e, uma CPU pode ver 1A e entao IB e outra 
CPU pode ver IB e entao 1A. Essa situagao e permitida. Contudo, todas as CPUs veem IB antes de 1C porque a 
primeira operagao de sincronizagao forga 1A, IB e 2A a conclulrem antes que 1C, 2B, 3A ou 3B tenham permissao 
de iniciar. Assim, realizando operagoes de sincronizagao, o software pode impor alguma ordem na sequencia de 
eventos, embora nao a custo zero, visto que descarregar o pipeline de memoria toma algum tempo e, portanto, 
atrasa o processamento da maquina. Fazer isso com frequencia pode ser um problema. 


Figura 8.25 A memoria fracamente consistente usa operacoes de sincronizacao para dividir o tempo em epocas sequences. 

Escrita 

\ 

IF 

2D 


CPU A 

// 

1A IB 

\ 

1C 


ID IE 

CPU B 

2A 

2B 


2C 

CPU C 


3A 

3B 

3C 


/ 

Ponto de sincronizagao 


Tempo - 









Capitulo 8 • Arquiteturas de computadores paralelos 


471 


• Consistencia de liberacao 

A consistencia fraca tem o problema de ser bastante ineficiente porque deve encerrar todas as operagoes 
de memoria pendentes e deter todas as novas ate que as operagoes correntes tenham terminado. A consistencia de 
liberagao melhora as coisas adotando um modelo semelhante ao das segoes crlticas (Gharachorloo et al., 1990). 
A ideia que fundamenta esse modelo e que, quando um processo sai de uma regiao crltica nao e necessario forgar 
todas as escritas a conclulrem imediatamente. Basta assegurar que elas estejam encerradas antes que qualquer 
processo entre naquela regiao crltica outra vez. 

Nesse modelo, a operagao de sincronizagao oferecida pela consistencia fraca e subdividida em duas opera- 
goes diferentes. Para ler ou escrever uma variavel de dados compartilhada, uma CPU (isto e, seu software) deve 
realizar, primeiro, uma operagao acquire na variavel de sincronizagao para obter acesso exclusivo aos dados com- 
partilhados. Entao, a CPU pode usa-los como quiser, lendo e escrevendo a vontade. Ao concluir, a CPU realiza 
uma operagao release na variavel de sincronizagao para indicar que terminou. A release nao obriga as escritas 
pendentes a concluir, mas ela propria nao conclui ate que as escritas emitidas antes estejam concluldas. Alem do 
mais, novas operagoes de memoria nao sao impedidas de iniciar imediatamente. 

Quando a proxima operagao acquire e emitida, e feita uma verificagao para ver se todas as operagoes release 
anteriores foram concluldas. Se nao foram, acquire e detida ate que todas tenham concluldo (e, portanto, que 
todas as escritas realizadas antes delas estejam concluldas). Desse modo, se a acquire seguinte ocorrer em um 
tempo longo o suficiente apos a release mais recente, ela nao tem de esperar antes de iniciar e pode entrar na 
regiao crltica sem demora. Se a acquire seguinte ocorrer logo apos uma release, a acquire, e todas as instrugoes 
apos ela, serao retardadas ate todas as releases pendentes serem concluldas, garantindo assim que as variaveis na 
segao crltica tenham sido atualizadas. Esse esquema e um pouco mais complicado do que consistencia fraca, mas 
tem a significativa vantagem de nao atrasar instrugoes com tanta frequencia para manter consistencia. 

A consistencia de memoria nao e um assunto encerrado. Os pesquisadores ainda estao propondo novos 
modelos (Naeem et al., 2011; Sorin et al., 2011; e Tu et al., 2010). 

8.3.3 Arquiteturas de multiprocessadores simetricos UMA 

Os multiprocessadores mais simples sao baseados em um unico barramento, como ilustrado na Figura 
8.26(a). Duas ou mais CPUs e um ou mais modulos de memoria, todos usam o mesmo barramento para comuni- 
cagao. Quando uma CPU quer ler uma palavra de memoria, ela primeiro verifica se o barramento esta ocupado. 
Se estiver ocioso, a CPU coloca nele o enderego da palavra que ela quer, ativa alguns sinais de controle e espera 
ate que a memoria coloque a palavra desejada no barramento. 

Se o barramento estiver ocupado quando uma CPU quiser ler ou escrever na memoria, a CPU apenas espera 
ate que ele fique ocioso. E e aqui que esta o problema desse projeto. Com duas ou tres CPUs, a contengao pelo 
barramento sera administravel; com 32 ou 64, sera insuportavel. O sistema ficara totalmente limitado pela largura 
de banda do barramento e a maioria das CPUs restara ociosa na maior parte do tempo. 


Figura 8.26 Tr§s multiprocessadores baseados em barramento. (a) Sem cache, (b) Com cache, (c) Com cache e memorias privadas. 
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A solugao para esse problema e acrescentar uma cache a cada CPU, como retratado na Figura 8.26(b). A cache 
pode estar dentro do chip da CPU, proxima ao chip da CPU, na placa do processador ou alguma combinagao de 
todas as tres. Uma vez que agora muitas leituras podem ser satisfeitas pela cache local, havera muito menos trafego 
no barramento e o sistema pode suportar mais CPUs. Assim, nesse caso, fazer cache e um grande ganho. Porem, 
como veremos em breve, manter as caches consistentes entre si nao e trivial. 

Ainda outra possibilidade e o projeto da Figura 8.26(c), no qual cada CPU tern nao so uma cache , mas tam- 
bem uma memoria local e privada que ela acessa por um barramento dedicado (privado). Para fazer a utilizagao 
ideal dessa configuragao, o compilador deve colocar nas memorias privadas todo o texto de programa, todas as 
cadeias, constantes e outros dados somente de leitura, pilhas e variaveis locais. Entao, a memoria compartilhada 
so e usada para variaveis compartilhadas que podem ser escritas. Na maioria dos casos, esse posicionamento cui- 
dadoso reduzira muito o trafego no barramento, mas requer cooperagao ativa do compilador. 

• Caches de escuta 

Embora os argumentos de desempenho que acabamos de apresentar decerto sejam verdadeiros, atenuamos 
um problema fundamental um pouco depressa demais. Suponha que a memoria seja sequencialmente consisten- 
te. O que acontece se a CPU 1 tiver uma linha em sua cache e entao a CPU 2 ten tar ler uma palavra na mesma 
linha? Na ausencia de quaisquer regras especiais, tambem ela obteria uma copia em sua cache. Em princlpio, e 
aceitavel fazer duas vezes a cache de uma mesma linha. Agora, suponha que a CPU 1 modifique a linha e entao, 
imediatamente apos, a CPU 2 leia sua copia da linha a partir de sua cache. Ela obtera dados velhos, violando 
assim o contrato entre o software e a memoria. O programa que esta executando na CPU 2 nao ficara satisfeito. 

Esse problema, conhecido como coerencia de cache ou consistencia de cache , e extremamente serio. Sem 
uma solugao, nao se pode usar a cache e os multiprocessadores baseados em barramento ficariam limitados a duas 
ou tres CPUs. Como consequencia de sua importancia, muitas solugoes foram propostas ao longo dos anos (por 
exemplo, Goodman, 1983; e Papamarcos e Patel, 1984). Embora todos esses algoritmos de cache , denominados 
protocolos de coerencia de cache , apresentem diferengas em detalhes, todos eles impedem que versoes diferentes 
da mesma linha de cache aparegam simultaneamente em duas ou mais caches. 

Em todas as solugoes, o controlador de cache e projetado especialmente para permitir que ele escute o bar¬ 
ramento monitorando todas as requisigoes de barramento de outras CPUs e caches e execute alguma agao em 
certos casos. Esses dispositivos sao denominados caches de escuta ou, as vezes, caches de espia, porque “espiam” 
o barramento. O conjunto de regras executado pelas caches, CPUs e memoria para impedir que diferentes versoes 
dos dados aparegam em multiplas caches forma o protocolo de coerencia de cache. A unidade de transference 
e armazenamento de uma cache e denominada uma linha de cache e seu comprimento tlpico e 32 ou 64 bytes. 

O protocolo de coerencia de cache mais simples de todos e denominado escrita direta. Ele pode ser mais 
bem entendido distinguindo os quatro casos mostrados na Figura 8.27. Quando uma CPU tenta ler uma palavra 
que nao esta em sua cache (isto e, ha uma ausencia da cache para leitura), seu controlador de cache carrega nela a 
linha que contem aquela palavra. A linha e fornecida pela memoria, que, nesse protocolo, esta sempre atualizada. 
Leituras subsequentes (isto e, presengas na cache para leitura) podem ser satisfeitas pela cache. 


Figura 8.27 Protocolo de coerencia de cache de escrita direta. Os retangulos vazios indicam que nenhuma acao foi realizada. 
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Quando ha uma ausencia da cache para escrita, a palavra que foi modificada e escrita para a memoria princi¬ 
pal. A linha que contem a palavra referenciada nao e carregada na cache. Quando ha uma presenga na cache para 
escrita, a cache e atualizada e, alem disso, a palavra e escrita diretamente para a memoria principal. A essentia 
desse protocolo e que todas as operagoes de escrita resultam na escrita da palavra diretamente para a memoria 
para mante-la atualizada o tempo todo. 

Agora, vamos observar todas essas agoes de novo, mas, desta vez, do ponto de vista da escuta, mostrado 
na coluna a direita da Figura 8.27. Vamos dar nome de cache 1 a que realiza as agoes e de cache 2 a de escuta. 
Quando a cache 1 encontra uma ausencia da cache para leitura, ela faz uma requisigao ao barramento para buscar 
uma linha da memoria. A cache 2 ve isso, porem nada faz. Quando a cache 1 encontra uma presenga na cache para 
leitura, a requisigao e satisfeita localmente e nao ocorre nenhuma requisigao ao barramento, portanto, a cache 2 
nao esta ciente das presengas na cache para leitura da cache 1. 

Escritas sao mais interessantes. Se a CPU 1 fizer uma escrita, a cache 1 fara uma requisigao de escrita no 
barramento, tan to quando houver ausencia da cache , como quando houver presenga nela. Em todas as escritas a 
cache 2 verifica se ela tern a palavra que esta sendo escrita. Se nao tiver, de seu ponto de vista isso e uma requi- 
sigao/ausencia da cache remota e ela nada faz. (Para esclarecer um ponto sutil, note que, na Figura 8.27, uma 
ausencia da cache remota significa que a palavra nao esta presente na cache de escuta; nao importa se ela estava 
ou nao na cache do originador. Assim, uma unica requisigao pode ser uma presenga na cache localmente e uma 
ausencia da cache na cache de escuta, e vice-versa.) 

Agora, suponha que a cache 1 escreva uma palavra que esta presente na cache da cache 2 (requisigao 
remota/presenga na cache para escrita). Se a cache 2 nada fizer, tera dados velhos, portanto, ela marca como 
invabda a entrada na cache que contem a palavra recem-modificada. Na verdade, ela remove o item da cache. 
Como todas as caches escutam todas as requisigoes ao barramento, sempre que uma palavra for escrita, o efeito 
llquido e atuabza-la na cache do originador, atuabza-la na memoria e extral-la de todas as outras. Desse modo, 
sao evitadas versoes inconsistentes. 

E claro que a CPU da cache 2 esta livre para ler a mesma palavra ja no ciclo seguinte. Nesse caso, a cache 
2 lera a palavra da memoria, que esta atualizada. Nesse ponto, cache 1, cache 2 e a memoria, todas terao copias 
identicas da palavra. Se qualquer das CPUs fizer uma escrita agora, a cache da outra sera purgada e a memoria 
sera atualizada. 

Muitas variagoes desse protocolo basico sao posslveis. Por exemplo, em uma presenga na cache para escrita, a 
cache de escuta em geral invabda sua entrada que contem a palavra que esta sendo escrita. Como alternativa, pode- 
ria aceitar o novo valor e atualizar sua cache em vez de marca-la como invabda. Em termos de conceito, atualizar a 
cache e o mesmo que invalida-la, seguida por uma leitura da palavra na memoria. Em todos os protocolos de cache 
deve ser feita uma escolha entre uma estrategia de atualizagao e uma estrategia de invalidagao. Esses protocolos 
funcionam de maneira diferente em cargas diferentes. Mensagens de atualizagao carregam cargas uteis e, por isso, 
sao maiores do que as de invalidagao, mas podem evitar futuras ausencias da cache. 

Outra variante e carregar a cache de escuta quando houver ausencia da cache para escrita. A corregao do 
algoritmo nao e afetada pelo carregamento, so o desempenho. A questao e: “Qual e a probabilidade de uma 
palavra recem-escrita ser escrita de novo em pouco tempo?”. Se for alta, ha algo a dizer em favor de carregar a 
cache quando houver ausencia desta para escrita, conhecida como polltica de alocagao de escrita. Se for baixa, e 
melhor nao atualizar quando houver ausencia da cache para escrita. Se a palavra for lida dentro de pouco tempo, 
de qualquer modo ela sera carregada pela ausencia da cache para leitura; ganha-se pouco por carrega-la quando 
houver uma ausencia da cache para escrita. 

Como acontece com muitas solugoes simples, essa e ineficiente. Cada operagao de escrita vai ate a 
memoria passando pelo barramento, portanto, mesmo com uma modesta quantidade de CPUs, o barramento 
se tornara um gargalo. Para manter o trafego dentro de limites, foram inventados outros protocolos de cache. 
Uma propriedade que todos eles tern e que nem todas as escritas vao direto para a memoria. Em vez disso, 
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quando uma linha de cache e modificada, um bit e marcado dentro da cache , comunicando que a linha esta 
correta, mas a memoria nao esta. A certa altura, essa linha suja tera de ser escrita de volta na memoria, 
porem, possivelmente depois que forem feitas muitas escritas nela. Esse tipo de protocolo e conhecido como 
protocolo de escrita retroativa (write-back). 

• 0 protocolo MESI de coerencia de cache 

Um protocolo popular de coerencia de cache de escrita retroativa e denominado MESI, representando as 
iniciais dos nomes dos quatro estados (M, E, S e I) que ele utiliza (Papamarcos e Patel, 1984). Ele e baseado no 
antigo protocolo escreve uma vez (write-once) (Goodman, 1983). O protocolo MESI e usado pelo Core i7 e por 
muitas outras CPUs para espiar o barramento. Cada entrada de cache pode estar em um dos quatro estados: 

1. Invalido - A entrada da cache nao contem dados validos. 

2. Compartilhado ( shared ) - multiplas caches podem conter a linha; a memoria esta atualizada. 

3. Exclusivo - nenhuma outra cache contem a linha; a memoria esta atualizada. 

4. Modificado - a entrada e valida; a memoria e invalida; nao existem copias. 


Quando a CPU e iniciada pela primeira vez, todas as entradas de cache sao marcadas como invalidas. Na 
primeira vez que a memoria e lida, a linha referenciada e buscada na cache da CPU que esta lendo a memoria e 
marcada como no estado E (exclusivo), uma vez que ela e a unica copia dentro de uma cache , como ilustrado 
na Figura 8.28(a) para o caso da CPU 1 que esta lendo a linha A. Leituras subsequentes por aquela CPU usam 
a entrada que esta na cache e nao passam pelo barramento. Outra CPU tambem pode buscar a mesma linha e 
coloca-la na cache , mas, por causa da escuta, o portador original (CPU 1) ve que nao esta mais sozinho e anuncia 
no barramento que ele tambem tern uma copia. Ambas as copias sao marcadas como estado S (compartilhado), 
conforme mostra a Figura 8.28(b). Em outras palavras, o estado S significa que a linha esta em uma ou em mais 
caches para leitura e a memoria esta atualizada. Leituras subsequentes por uma CPU para uma linha que ela colo- 
cou em cache no estado S nao usam o barramento e nao provocam mudanga de estado. 

Agora, considere o que acontece se a CPU 2 escrever para a linha de cache que ela esta mantendo no 
estado S. Ela emite um sinal de invalidagao no barramento, informando a todas as outras CPUs para descar- 
tar suas copias. A copia que esta em cache agora passa para o estado M (modificado), como mostra a Figura 
8.28(c). A linha nao e escrita para a memoria. Vale a pena observar que, se uma linha estiver no estado E 
quando for escrita, nenhum sinal e necessario para invalidar outras caches , porque todos sabem que nao 
existe nenhuma outra copia. 

Em seguida, considere o que acontece se a CPU 3 ler a linha. A CPU 2, que agora possui a linha, sabe 
que a copia na memoria nao e valida, portanto, ela ativa um sinal no barramento informando a CPU 3 que 
faga o favor de esperar enquanto ela escreve sua linha de volta para a memoria. Quanto a CPU 2 concluir, a 
CPU 3 busca uma copia e a linha e marcada como compartilhada em ambas as caches, como mostra a Figura 
8.28(d). Apos isso, a CPU 2 escreve a linha de novo, que invalida a copia que esta na cache da CPU 3, con- 
forme mostra a Figura 8.28(e). 

Por fim, a CPU 1 escreve uma palavra na linha. A CPU 2 ve que uma escrita esta sendo tentada e ativa um 
sinal de barramento dizendo a CPU 1 fazer o favor de esperar enquanto ela escreve sua linha de volta na memo¬ 
ria. Quando termina, a CPU 2 marca sua propria copia como invalida, ja que sabe que outra CPU esta prestes a 
modifica-la. Nesse ponto, temos a situagao em que uma CPU esta escrevendo uma linha que nao esta na cache. 
Se a polltica de alocagao de escrita estiver em uso, a linha sera carregada na cache e marcada como em estado M, 
como ilustra a Figura 8.28(0- Se polltica de alocagao de escrita nao estiver em uso, a escrita ira diretamente ate 
a memoria e a linha nao ficara em cache em lugar algum. 
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Figura 8.28 


Protocolo MESI de coerencia de cache. 


(a) 


(b) 



Barramento 


CPU 1 le bloco A 


CPU 2 le bloco A 



Barramento 


CPU 2 escreve bloco A 



Barramento 


CPU 3 le bloco A 



Barramento 


CPU 2 escreve bloco A 



Barramento 


CPU 1 escreve bloco A 


• Multiprocessadores UMA que usam switches crossbar 

Mesmo com todas as posslveis otimizagoes, a utilizagao de um unico barramento limita o tamanho do 
multiprocessador UMA a cerca de 16 ou 32 CPUs. Para passar disso e preciso um tipo diferente de rede de inter- 
conexao. O circuito mais simples para conectar n CPUs a k memorias e o switch crossbar mostrado na Figura 
8.28. Switches crossbar sao utilizados ha decadas em centrais de cornutagao telefonica para conectar um grupo 
de linhas de entrada a um conjunto de linhas de salda de um modo arbitrario. 
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Em cada intersecgao de uma linha horizontal (de entrada) com uma linha vertical (de salda) esta um ponto 
de cruzamento. Um ponto de cruzamento e um pequeno switch que pode ser aberto ou fechado eletricamente, 
dependendo de as linhas horizontal e vertical deverem ser ou nao ser conectadas. Na Figura 8.29(a), vemos tres 
pontos de cruzamento fechados simultaneamente, o que permite conexoes entre os pares (CPU, memoria) (001, 
000), (101, 101) e (110, 010) ao mesmo tempo. Muitas outras combinagoes tambem sao posslveis. Na verdade, o 
numero de combinagoes e igual ao numero de modos diferentes em que oito torres podem ser posicionadas com 
seguranga sobre um tabuleiro de xadrez. 


Figura 8.29 


(a) Switch crossbar 8 x 8. (b) Ponto de cruzamento aberto. (c) Ponto de cruzamento fechado. 
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Uma das propriedades mais interessantes do switch crossbar e que ele e uma rede sem bloqueio, o que 
significa que a nenhuma CPU e negada a conexao de que necessita porque algum ponto de cruzamento ou linha ja 
esta ocupado (considerando que o modulo de memoria em si esteja disponlvel). Alem do mais, nao e preciso plane- 
jamento antecipado. Ainda que ja estejam estabelecidas sete conexoes arbitrarias, sempre e posslvel conectar a CPU 
restante a memoria restante. Mais adiante, veremos esquemas de interconexao que nao tern essas propriedades. 

Uma das piores propriedades do switch crossbar e o fato de que o numero de pontos de cruzamento 
cresce com n 2 . O projeto de switches crossbar e viavel para sistemas de tamanho medio. Discutiremos um 
desses projetos, o Sun Fire E25K, mais adiante neste capltulo. Contudo, com mil CPUs e mil modulos de 
memoria, precisamos de um milhao de pontos de cruzamento. Um switch crossbar desse tamanho nao e viavel. 
Precisamos de algo bem diferente. 


• Multiprocessadores UMA que usam redes de comutacao multiestagios 

Esse “algo bem diferente” pode ser baseado no modesto switch 2x2 mostrado na Figura 8.30(a). Ele tern 
duas entradas e duas saldas. Mensagens que chegam a qualquer uma das linhas de entrada podem ser cornutadas 
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para qualquer das linhas de salda. Para a finalidade que pretendemos aqui, as mensagens conterao ate quatro par¬ 
tes, conforme mostra a Figura 8.30(b). O campo Modulo informa qual memoria usar. O campo EndereQO especifi- 
ca um enderego dentro de um modulo. O campo Opcode da a operagao, como READ ou WRITE. Por fim, o campo 
opcional Valor pode conter um operando, como uma palavra de 32 bits a ser escrita em uma operagao WRITE. 
O switch inspeciona o campo Modulo e o utiliza para determinar se a mensagem deve ser enviada por X ou por Y. 


Figura 8.30 (a) Switch 2x2. (b) Formato de mensagem. 
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Nossos switches 2x2 podem ser organizados de muitos modos para construir redes de cornutagao multies- 
tagios maiores. Uma possibilidade e a rede omega, classe economica, sem superfluos, ilustrada na Figura 8.31. 
Nesse caso, conectamos oito CPUs a oito memorias usando 12 switches. De modo mais geral, para n CPUs e n 
memorias precisarlamos de log 2 n estagios, com n/2 switches cada, para um total de (n/2)log 2 n switches, o que e 
muito melhor do que n 2 pontos de cruzamento, em especial para valores grandes de n. 

O padrao de fiagao da rede omega costuma ser denominado embaralhamento perfeito, pois a mistura dos 
sinais em cada estagio e parecida com um baralho que e cortado ao meio e entao embaralhado carta por carta. Para 
ver como a rede omega funciona, suponha que a CPU Oil queira ler uma palavra do modulo de memoria 110. 
A CPU envia uma mensagem READ ao switch ID que contem 110 no campo Modulo. O switch pega o primeiro 
bit de 110, isto e, o da extrema esquerda, e o utiliza para o roteamento. Um 0 roteia para a salda superior e um 1 
roteia para a inferior. Como esse bit e um 1, a mensagem e roteada para 2D por meio da salda inferior. 

Todos os switches do segundo estagio, incluindo 2D, usam o segundo bit para roteamento. Esse bit tambem 
e um 1, portanto, a mensagem agora e repassada para 3D por meio da salda inferior. Nesse ponto, o terceiro bit e 
testado e verifica-se que e 0. Por conseguinte, a mensagem sai pela salda superior e chega a memoria 110, como 
desejado. O caminho percorrido por essa mensagem e marcado pela letra a na Figura 8.31. 


Figura 8.31 


Rede de comutacao omega. 
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A medida que a mensagem percorre a rede de comutagao, os bits da extremidade esquerda do modulo ja nao 
sao mais necessarios. Eles podem muito bem ser usados para registrar ali o numero da linha de entrada, de modo 
que a resposta possa encontrar seu caminho de volta. Para o caminho a, as linhas de entrada sao 0 (entrada supe¬ 
rior para ID), 1 (entrada inferior para 2D) e 1 (entrada inferior para 3D), respectivamente. A resposta e roteada 
de volta usando Oil, so que, desta vez, ela e lida da direita para a esquerda. 

Ao mesmo tempo em que tudo isso esta acontecendo, a CPU 001 quer escrever uma palavra para o modulo 
de memoria 001. Nesse caso, acontece um processo analogo e a mensagem e roteada pelas saldas superior, supe¬ 
rior e inferior, respectivamente, marcadas com a letra b. Quando chega, seu campo Modulo le 001, que representa 
o caminho que ela tomou. Uma vez que essas duas requisigoes nao usam nenhum dos mesmos switches, linhas 
ou modulos de memoria, elas podem prosseguir em paralelo. 

Agora, considere o que aconteceria se a CPU 000 quisesse acessar simultaneamente o modulo de memoria 
000. Sua requisigao entraria em conflito com a requisigao da CPU 001 no switch 3A. Uma delas teria de esperar. 
Diferente do switch crossbar, a rede omega e uma rede com bloqueio. Nem todos os conjuntos de requisigoes 
podem ser processados ao mesmo tempo. Podem ocorrer conflitos pela utilizagao de um fio ou de um switch, bem 
como entre requisigoes para a memoria e respostas da memoria. 

E claramente desejavel espalhar as references a memoria de maneira uniforme pelos modulos. Uma tecnica 
comum e usar os bits de ordem baixa como o numero de modulo. Considere, por exemplo, um espago de ende- 
rego por bytes para um computador que acessa principalmente palavras de 32 bits. Os 2 bits de ordem baixa em 
geral serao 00, mas os 3 bits seguintes estarao uniformemente distribuldos. Usando esses 3 bits como o numero 
de modulo, palavras enderegadas consecutivamente estarao em modulos consecutivos. Um sistema de memoria 
no qual palavras consecutivas estao em modulos consecutivos e denominado intercalado. Memorias intercaladas 
maximizam o paralelismo porque grande parte das references a memoria e para enderegos consecutivos. Tambem 
e posslvel projetar redes de comutagao que nao sao bloqueantes e oferecem multiplos caminhos de cada CPU a 
cada modulo de memoria, para distribuir melhor o trafego. 

8.3.4 Multiprocessadores NUMA 

A esta altura, deve estar claro que multiprocessadores UMA de um unico barramento em geral sao limita- 
dos a nao mais do que algumas dezenas de CPUs e que multiprocessadores crossbar ou comutados precisam de 
muito hardware (caro) e nao sao assim tao maiores. Para chegar a mais de cem CPUs, alguma coisa tern de ser 
abandonada. Em geral, o que se abandona e a ideia de que todos os modulos de memoria tenham o mesmo tempo 
de acesso. Essa concessao leva a ideia de multiprocessadores NUMA (NonUniform Memory Access - acesso 
nao uniforme a memoria). Como seus primos UMA, eles fornecem um unico espago de enderego para todas as 
CPUs, porem, diferentemente das maquinas UMA, o acesso a modulos de memoria locais e mais rapido do que o 
acesso a modulos remotos. Assim, todos os programas UMA executarao sem alteragao em maquinas NUMA, mas 
o desempenho sera pior do que em uma maquina UMA a mesma velocidade de clock. 

Todas as maquinas NUMA tern tres caracterlsticas fundamental que, juntas, as distinguem de outros mul¬ 
tiprocessadores: 

1. Ha um unico espago de enderego visivel a todas as CPUs. 

2. O acesso a memoria remota e feito usando instrugoes LOAD e STORE. 

3. O acesso a memoria remota e mais lento do que o acesso a memoria local. 


Quando o tempo de acesso a memoria remota nao e oculto (porque nao ha cache), o sistema e denomi¬ 
nado NC-NUMA. Quando estao presentes caches coerentes, ele e denominado CC-NUMA (ao menos pelo pes- 
soal do hardware). O pessoal do software costuma denomina-lo DSM de hardware, porque ele e em essentia 
o mesmo que memoria compartilhada distribulda por software, mas implementada pelo hardware usando uma 
pagina de tamanho pequeno. 
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Umas das primeiras maquinas NC-NUMA (embora o nome ainda nao tivesse sido cunhado) foi a Carnegie- 
-Mellon Cm*, ilustrada de forma simplificada na Figura 8.32 (Swan et al., 1977). Ela consistia em uma colegao de 
CPUs LSI-11, cada uma com alguma memoria enderegada por meio de um barramento local. (A LSI-11 era uma 
versao de chip unico do DEC PDP-11, um minicomputador popular na decada de 1970.) Ademais, os sistemas 
LSI-11 eram conectados por um barramento de sistema. Quando uma requisigao de memoria entrava em uma 
MMU, especialmente modificada, era feita uma verificagao para ver se a palavra necessaria estava na memoria 
local. Se estivesse, era enviada uma requisigao pelo barramento local para obter a palavra. Se nao, a requisigao 
era roteada pelo barramento de sistema ate o sistema que continha a palavra, que, entao, respondia. E claro que 
a ultima demorava muito mais do que a primeira. Embora um programa pudesse ser executado com facilidade a 
partir da memoria remota, isso levava dez vezes mais tempo do que se o mesmo programa fosse executado a partir 
da memoria local. 


Figura 8.32 Maquina NUMA com dois nfveis de barramentos. 0 Cm* foi o primeiro multiprocessador a usar esse projeto. 

CPU Memoria CPU Memoria CPU Memoria CPU Memoria 



Barramento do sistema 


A coerencia de memoria e garantida em uma maquina NC-NUMA porque nao ha cache presente. Cada pala¬ 
vra de memoria reside em exatamente um local, portanto, nao ha perigo de uma copia ter dados velhos: nao ha 
copias. Claro que agora e muito importante saber que pagina esta em qual memoria, porque a penalidade sobre 
o desempenho no caso de ela estar no lugar errado e muito grande. Por conseguinte, maquinas NC-NUMA usam 
software elaborado para mover paginas de um lado para outro de modo a maximizar o desempenho. 

Em geral, ha um processo residente denominado scanner de paginas que executa com intervalo de poucos 
segundos. Sua tarefa e examinar a estatlstica de utilizagao e mover paginas de um lado para outro na tentativa 
de melhorar o desempenho. Se a pagina parece estar no lugar errado, o scanner a desmapeia de modo que a 
proxima referencia a ela causara uma falta de pagina. Quando ocorre a falta, e tomada uma decisao sobre onde 
coloca-la, possivelmente em uma memoria diferente daquela em que estava antes. Para evitar paginagao excessi- 
va ( thrashing ), costuma haver alguma regra afirmando que, uma vez posicionada, a pagina e congelada no lugar 
durante algum tempo AT. Varios algoritmos foram estudados, mas a conclusao e que nenhum funciona melhor 
em todas as circunstancias (LaRowe e Ellis, 1991). O melhor desempenho depende da aplicagao. 


• Multiprocessadores NUMA com coerencia de cache 

Projetos de multiprocessadores como o da Figura 8.32 nao se prestam muito bem a ampliagao, porque nao 
fazem cache. Ter de ir ate a memoria remota toda vez que uma palavra de memoria nao local for acessada e um 
grande empecilho ao desempenho. Contudo, se for adicionado cache , entao e preciso adicionar tambem coerencia 
de cache. Um modo de proporcionar coerencia e escutar o barramento de sistema. Tecnicamente, nao e diflcil 
fazer isso, mas, se for ultrapassado certo numero de CPUs, torna-se inviavel. Para construir multiprocessadores 
grandes de fato e preciso usar uma tecnica fundamentalmente diferente. 
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Hoje, a abordagem mais popular para construir multiprocessadores CC-NUMA (Cache Coherent NUMA - 
NUMA com coerencia de cache ) de grande porte e o multiprocessador baseado em diretorio. A ideia e man ter 
um banco de dados que informa onde esta cada linha de cache e em que estado ela esta. Quando uma linha de 
cache e referenciada, o banco de dados e pesquisado para descobrir onde ela esta e se esta limpa ou suja (modi- 
ficada). Como e preciso pesquisar esse banco de dados a cada instrugao que referenciar a memoria, ele tern de 
ser mantido em hardware extremamente rapido de uso especial, que pode responder em uma fragao de um ciclo 
de barramento. 

Para tornar um pouco mais concreta a ideia de um multiprocessador baseado em diretorio, vamos considerar 
o exemplo simples (hipotetico) de um sistema de 256 nos, cada qual consistindo em uma CPU e 16 MB de RAM 
conectados a CPU por um barramento local. A memoria total e 2 32 bytes, dividida em 2 26 linhas de cache de 64 
bytes cada. A memoria e alocada estaticamente entre os nos, com 0-16M no no 0, 16-32M no no 1 e assim por 
diante. Os nos sao conectados por uma rede de interconexao, como mostra a Figura 8.33(a). A rede de intercone¬ 
xao poderia ser uma grade, um hipercubo ou outra topologia. Cada no tambem contem as entradas de diretorio 
para as 2 18 linhas de cache de 64 bytes abrangendo sua memoria de 2 24 bytes. Por enquanto, vamos considerar que 
uma linha pode ser contida, no maximo, em uma cache. 

Para ver como o diretorio funciona, vamos acompanhar uma instrugao LOAD da CPU 20 que referencia 
uma linha que esta em cache. Primeiro, a CPU que esta emitindo a instrugao a apresenta a sua MMU (unidade de 
gerenciamento de memoria), que a traduz para um enderego flsico, por exemplo, 0x24000108. A MMU subdivide 
esse enderego nas tres partes mostradas na Figura 8.33(b). Em decimal, essas tres partes sao no 36, linha 4 e des- 
locamento 8. A MMU ve que a palavra de memoria referenciada e do no 36, e nao do no 20, portanto, envia uma 
mensagem de requisigao pela rede de interconexao ao no nativo da linha, 36, perguntando se sua linha 4 esta em 
cache e, se sim, onde esta. 


Figura 8.33 


(a) Multiprocessador de 256 nos baseado em diretorio. (b) Divisao de um endereco de memoria de 32 bits em campos. (c) 
Diretorio no no 36. 
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Quando a requisigao chega ao no 36 pela rede de interconexao, ela e roteada para o hardware de diretorio. 
O hardware indexa para sua tabela de 2 18 entradas, uma para cada linha de cache , e extrai a entrada 4. Pela Figura 
8.33(c), vemos que a linha nao esta em cache, portanto, o hardware busca a linha 4 na RAM local, a envia de volta 
ao no 20 e atualiza a entrada de diretorio 4 para indicar que a linha agora esta em cache no no 20. 

Agora, vamos considerar uma segunda requisigao, desta vez perguntando sobre a linha 2 do no 36. Pela 
Figura 8.33(c), vemos que essa linha esta em cache no no 82. Nesse ponto, o hardware poderia atualizar a entrada 
de diretorio 2 para informar que a linha agora esta no no 20 e entao enviar uma mensagem ao no 82 instruindo-o 
a passar a linha para o no 20 e invalidar sua cache. Note que, mesmo um “multiprocessador de memoria compar- 
tilhada”, por assim dizer, tern uma grande atividade oculta de troca de mensagens. 

A proposito, vamos calcular quanta memoria esta sendo tomada pelos diretorios. Cada no tern 16 MB de 
RAM e 2 18 entradas de 9 bits para monitorar aquela RAM. Assim, o overhead do diretorio e de cerca de 9 x 2 18 bits 
divididos por 16 MB, ou mais ou menos 1,76%, o que, em geral, e aceitavel (embora tenha de ser memoria de aha 
velocidade, o que aumenta o custo). Mesmo com linhas de 32 bytes, o overhead seria de apenas 4%. Com linhas 
de cache de 128 bytes, ele estaria abaixo de 1%. 

Uma limitagao obvia desse projeto e que uma linha so pode ser colocada em cache em um unico no. Para per- 
mitir cache de linhas em varios nos, precisarlamos de algum modo de localizar todas, por exemplo, para invalida- 
-las ou atualiza-las em uma escrita. Ha varias opgoes para permitir cache em varios nos ao mesmo tempo. 

Uma possibilidade e dar a cada entrada de diretorio k campos para especificar outros nos, permitindo assim 
o caching de cada linha em ate k nos. Uma segunda possibilidade e substituir o numero do no em nosso projeto 
simples por um mapa de bits, com um bit por no. Nessa opgao, nao ha nenhum limite a quantidade de copias que 
pode haver, mas ha um substancial aumento no overhead. Um diretorio com 256 bits para cada linha de cache de 
64 bytes (512 bits) implica um overhead de mais de 50%. Uma terceira possibilidade e manter um campo de 8 
bits em cada entrada de diretorio e usa-lo como o cabegalho de uma lista encadeada que enfileira todas as copias 
da linha de cache. Essa estrategia requer armazenamento extra em cada no para ponteiros da lista encadeada e 
tambem demanda percorrer uma lista encadeada para achar todas as copias quando isso for necessario. Cada 
possibilidade tern suas proprias vantagens e desvantagens, e todas as tres tern sido usadas em sistemas reais. 

Outra melhoria do projeto de diretorio e monitorar se a linha de cache esta limpa (memoria residente esta 
atualizada) ou suja (memoria residente nao esta atuabzada). Se chegar uma requisigao de leitura para uma linha 
de cache limpa, o no nativo pode cumprir a requisigao de memoria sem ter de repassa-la para uma cache. Contudo, 
uma requisigao de leitura para uma linha de cache suja deve ser passada para o no que contem a linha de cache 
porque somente ele tern uma copia valida. Se for permitida apenas uma copia de cache , como na Figura 8.33, nao 
ha vantagem real alguma em monitorar sua limpeza, porque qualquer nova requisigao exige que seja enviada uma 
mensagem a copia existente para invalida-la. 

Claro que monitorar se cada linha de cache esta limpa ou suja implica que, quando uma linha de cache e 
modificada, o no nativo tern de ser informado, mesmo se existir somente uma copia de cache. Se existirem varias 
copias, modificar uma delas requer que o resto seja invalidado, portanto, e preciso algum protocolo para evitar 
condigoes de disputa. Por exemplo, para modificar uma linha de cache compartilhada, um dos portadores poderia 
ter de requisitar acesso exclusivo antes de modifica-la. Tal requisigao faria com que todas as outras copias fossem 
invalidadas antes da concessao da permissao. Outras otimizagoes de desempenho para maquinas CC-NUMA sao 
discutidas em Cheng e Carter, 2008. 


• 0 multiprocessador NUMA Sun Fire E25K 

Como exemplo de um multiprocessador NUMA de memoria compartilhada, vamos estudar a famllia Sun 
Fire da Sun Microsystems. Embora essa famllia contenha varios modelos, focalizaremos o E25K, que tern 72 chips 
de CPU UltraSPARC IV. Uma UltraSPARC IV e, basicamente, um par de processadores UltraSPARC III que com- 
partilham uma cache e memoria. O E15K e, em essencia, o mesmo sistema, exceto que tern um uniprocessador 
em vez de chips de CPU com processadores duais. Existem membros menores tambem, mas, de nosso ponto de 
vista, o interessante e como funcionam os que tern o maior numero de CPUs. 
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O sistema E25K consiste em ate 18 conjuntos de placas, cada conjunto composto por uma placa CPU-memoria, 
uma placa de E/S com quatro conectores PCI e uma placa de expansao que acopla a placa CPU-memoria a placa de 
E/S e une o par ao piano central, que suporta as placas e contem a logica de comutagao. Cada placa CPU-memoria 
contem quatro chips de CPU e quatro modulos de RAM de 8 GB. Por conseguinte, cada placa CPU-memoria no 
E25K contem oito CPUs e 32 GB de RAM (quatro CPUs e quatro 32 GB de RAM no E15K). Assim, um E25K com- 
pleto contem 144 CPUs, 576 GB de RAM e 72 conectores PCI. Ele e ilustrado na Figura 8.34. O interessante e que 
o numero 18 foi escolhido por causa de limitagoes de empacotamento: um sistema com 18 conjuntos de placas era 
o maior que podia passar inteiro por uma porta. Enquanto programadores so pensam em Os e Is, engenheiros tern 
de se preocupar com questoes como se o produto consegue passar pela porta e entrar no predio do cliente. 


Figura 8.34 


Multiprocessador E25K da Sun Microsystems. 



O piano central e composto de um conjunto de tres switches crossbar 18 x 18 para conectar os 18 conjuntos 
de placas. Um switch crossbar e para as linhas de enderego, um e para respostas e um e para transference de 
dados. Alem das 18 placas de expansao, o piano central tambem tern um conjunto de placas de controle de sis¬ 
tema ligado a ele. Esse conjunto tern uma unica CPU, mas tambem interfaces com CD-ROM, fita, linhas seriais e 
outros dispositivos perifericos necessarios para inicializar, manter e controlar o sistema. 

O coragao de qualquer multiprocessador e o subsistema de memoria. Como conectar 144 CPUs a memoria 
distribulda? Os modos diretos - um grande barramento de escuta compartilhado ou um switch crossbar 144 x 
72 - nao funcionam bem. O primeiro falha porque o barramento e um gargalo e o ultimo falha porque e muito 
diflcil e muito caro construir o switch. Por isso, grandes multiprocessadores como o E25K sao obrigados a usar 
um subsistema de memoria mais complexo. 

No nlvel do conjunto de placas e usada logica de escuta, de modo que todas as CPUs locais podem 
verificar todas as requisigoes de memoria que vem do conjunto de placas para references a blocos que estao 
em suas caches no momento. Assim, quando uma CPU necessita de uma palavra da memoria, primeiro ela 
converte o enderego virtual para um enderego flsico e verifica sua propria cache. (Enderegos flsicos tern 43 
bits, mas restrigoes de empacotamento limitam a memoria a 576 GB.) Se o bloco de cache de que ela necessita 
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estiver em sua propria cache , a palavra e devolvida. Caso contrario, a logica de escuta verifica se ha uma copia 
daquela palavra disponlvel em algum outro lugar do conjunto de placas. Se houver, a requisigao e cumprida. 
Se nao houver, a requisigao e passada adiante por meio do switch crossbar 18 x 18 de enderego como des- 
creveremos mais adiante. A logica de escuta so pode fazer uma escuta por ciclo de clock. O clock do sistema 
funciona a 150 MHz, portanto, e posslvel realizar 150 milhoes de escutas/segundo por conjunto de placas ou 
2,7 bilhoes de escutas/segundo no ambito do sistema. 

Embora em termos logicos a logica de escuta seja um barramento, como retratado na Figura 8.34, em termos 
flsicos ela e uma arvore de dispositivos, cujos comandos sao repassados para cima e para baixo dela. Quando uma 
CPU ou uma placa PCI produzem um enderego, este vai ate um repetidor de enderegos por meio de uma conexao 
ponto a ponto, como mostra a Figura 8.35. Os dois repetidores convergem para a placa de expansao, onde os 
enderegos sao enviados de volta arvore abaixo para cada dispositivo para verificar presengas. Esse arranjo e usado 
para evitar ter um barramento que envolva tres placas. 


Figura 8.35 0 Sun Fire E25K usa uma interconexao de quatro niveis. As linhas tracejadas sao caminhos de enderecos. As linhas cheias 
sao caminhos de dados. 


Switch crossbar de 
18x18 para enderegos 


Switch crossbar be 
18x18 para respostas 


Switch crossbar de 
18x18 para dados 


Nfvel 3 



Nivel 2 


Nivel 1 


Nivel 0 


Transferences de dados usam uma interconexao de quatro niveis como ilustrado na Figura 8.35. Esse 
projeto foi escolhido por causa de seu alto desempenho. No nivel 0, pares de chips de CPU e memorias sao 
conectados por um pequeno switch crossbar que tambem tern uma conexao com o nivel 1. Os dois grupos 
de pares CPU-memoria sao conectados por um segundo switch crossbar no nivel 1. Os switches crossbar sao 
ASICs fabricados por especificagao. Para todos eles, todas as entradas estao disponiveis nas linhas, bem como 
nas colunas, embora nem todas as combinagoes sejam usadas (ou nem mesmo fagam sentido). Toda a logica 
de cornutagao nas placas e construida a partir de crossbars 3x3. 

Cada conjunto de placas consiste em tres placas: a CPU-memoria, a placa de E/S e a de expansao, que conecta 
as outras duas. A interconexao de nivel 2 e outro switch crossbar 3x3 (na placa de expansao) que une a memoria 
propriamente dita as portas de E/S (que sao de mapeamento de memoria em todas as UltraSPARCs). Todas as 
transferences de dados de ou para o conjunto de placas, seja para memoria ou para uma porta de E/S, passam 
pelo switch de nivel 2. Por fim, dados que tern de ser transferidos de ou para uma placa remota passam por um 
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switch crossbar 18 x 18 de dados no nlvel 3. Transferences de dados sao feitas 32 bytes por vez, portanto, leva 
dois ciclos de clock para transferir 64 bytes, que e a unidade de transference normal. 

Agora que ja vimos como os componentes sao organizados, vamos voltar nossa atengao ao modo como a 
memoria compartilhada opera. No nlvel mais baixo, os 576 GB de memoria sao divididos em 2 29 blocos de 64 
bytes cada. Esses blocos sao as unidades atomicas do sistema de memoria. Cada bloco tern uma placa nativa onde 
ele reside quando nao esta em uso em algum outro lugar. A maioria fica em sua placa nativa por grande parte 
do tempo. Contudo, quando uma CPU precisa de um bloco de memoria, seja de sua propria placa ou de uma 
das 17 placas remotas, primeiro ela requisita uma copia para sua propria cache e entao acessa a copia na cache. 
Embora cada chip de CPU no E25K contenha duas CPUs, elas compartilham uma unica cache flsica e, por isso, 
compartilham todos os blocos nela contidos. 

Cada bloco de memoria e linha de cache de cada chip de CPU pode estar em um de tres estados: 

1. Acesso exclusivo (para escrita). 

2. Acesso compartilhado (para leitura). 

3. Invalido (isto e, vazio). 


Quando uma CPU precisa ler ou escrever uma palavra de memoria, ela primeiro verifica sua propria cache. 
Se nao encontrar a palavra ali, ela emite uma requisigao local para o enderego flsico, que e transmitida somente 
em seu proprio conjunto de placas. Se uma cache do conjunto de placas tiver a linha necessaria, a logica de escuta 
detecta a presenga e cumpre a requisigao. Se a linha estiver em modo exclusivo, ela e transferida ao requisitante 
e a copia original e marcada como invalida. Se es tiver em modo compartilhado, a cache nao responde, vis to que 
a memoria sempre responde quando uma linha de cache es tiver limpa. 

Se a logica de escuta nao puder encontrar a linha de cache ou se a linha estiver presente e compartilhada, 
ela envia uma requisigao pelo piano central a placa-mae perguntando onde esta o bloco de memoria. O estado de 
cada bloco de memoria e armazenado nos bits ECC do bloco, portanto, a placa-mae pode determinar de imediato 
seu estado. Se o bloco nao estiver compartilhado ou estiver compartilhado com uma ou mais placas remotas, a 
memoria residente estara atualizada e a requisigao pode ser atendida a partir da memoria da placa-mae. Nesse 
caso, uma copia da linha de cache e transmitida pelo switch crossbar de dados em dois ciclos de clock e acabara 
chegando a CPU requisitante. 

Se a requisigao era para leitura, e feita uma entrada no diretorio na placa-mae anotando que um novo 
cliente esta compartilhando a linha de cache e a transagao esta conclulda. Contudo, se a requisigao for para 
escrita, uma mensagem de invalidagao tern de ser enviada a todas as outras placas (se houver alguma) que 
contiverem uma copia dela. Assim, a placa que faz a requisigao de escrita acaba ficando com a unica copia. 

Agora, considere o caso em que o bloco requisitado esta em estado exclusivo localizado em uma placa dife- 
rente. Quando a placa-mae obtem a requisigao, ela consulta a localizagao da placa remota no diretorio e envia ao 
requisitante uma mensagem informando onde esta a linha de cache. Agora, o requisitante envia a requisigao para 
o conjunto de placas correto. Quando esta chega, a placa devolve a linha de cache. Se fosse uma requisigao de 
leitura, a linha seria marcada como compartilhada e uma copia enviada de volta a placa-mae. Se fosse uma requi¬ 
sigao de escrita, o respondedor invalidaria sua copia para que o novo requisitante tivesse uma copia exclusiva. 

Uma vez que cada placa tern 2 29 blocos de memoria, na pior das hipoteses o diretorio precisaria de 2 29 entra- 
das para monitorar todos eles. Como o diretorio e muito menor do que 2 29 , poderia acontecer de nao haver espago 
(que e pesquisado associativamente) para algumas entradas. Nesse caso, o diretorio de origem tern de localizar o 
bloco transmitindo uma requisigao de bloco de origem a todas as outras 17 placas. O switch crossbar de resposta 
desempenha um papel na coerencia do diretorio e protocolo de atualizagao dirigindo grande parte do trafego no 
sentido inverso de volta ao remetente. A subdivisao do protocolo de trafego em dois barramentos (de enderego e 
de resposta) e um terceiro barramento de dados aumenta a vazao do sistema. 

Por distribuir a carga entre multiplos dispositivos em placas diferentes, o Sun Fire E25K pode atingir desem- 
penho muito alto. Alem dos 2,7 bilhoes de escutas/segundo que ja mencionamos, o piano central pode tratar ate 
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nove transferences simultaneas, com nove placas enviando e nove recebendo. Uma vez que o switch crossbar para 
dados tem 32 bytes de largura, 288 bytes podem ser movidos atraves do piano central a cada ciclo de clock. A uma 
taxa de clock de 150 MHz, isso da uma largura de banda agregada de pico de 40 GB/s quando todos os acessos 
forem remotos. Se o software puder posicionar paginas de modo a assegurar que a maioria dos acessos seja local, 
entao a largura de banda do sistema pode ser consideravelmente maior do que 40 GB/s. 

Se o leitor quiser mais informagoes tecnicas sobre o Sun Fire, veja Charlesworth, 2002; e Charlesworth, 2001. 

Em 2009, a Oracle comprou a Sun Microsystems, continuando com o desenvolvimento de servidores 
baseados em SPARC. O SPARC Enterprise M9000 e o sucessor do E25K. O M9000 incorpora processadores 
SPARC quad-core mais velozes, alem de memoria adicional e conectores PCIe. Um servidor M9000 totalmente 
equipado contem 256 processadores SPARC, 4 TB de DRAM e 128 interfaces de E/S PCIe. 

8.3.5 Multiprocessadores COMA 

Uma desvantagem das maquinas NUMA e CC-NUMA e que referencias a memoria remota sao muito mais 
lentas do que referencias a memoria local. Em CC-NUMA, essa diferenga em desempenho esta oculta, ate certo 
ponto, pela atividade de cache. Nao obstante, se a quantidade de dados remotos necessarios for muito maior do 
que a capacidade da cache , ausencias desta ocorrerao constantemente e o desempenho sera mediocre. 

Assim, temos uma situagao em que maquinas UMA tem excelente desempenho, mas seu tamanho e limitado 
e elas sao muito caras. Maquinas NC-NUMA podem ser ampliadas para tamanhos um pouco maiores, mas reque- 
rem posicionamento de paginas manual ou semiautomatico, muitas vezes com resultados mistos. O problema e 
que e diflcil prever quais paginas serao necessarias em que lugares e, de qualquer modo, paginas costumam ser 
uma unidade muito grande para mover de um lado para outro. Maquinas CC-NUMA, como o Sun Fire E25K, 
podem experimentar mau desempenho se muitas CPUs precisarem de grandes quantidades de dados remotos. 
Levando tudo isso em conta, cada um desses projetos tem serias limitagoes. 

Um tipo alternativo de multiprocessador tenta contornar todos esses problemas usando a memoria principal 
de cada CPU como uma cache. Nesse projeto, denominado COMA (Cache Only Memory Access - acesso somente 
a memoria cache), as paginas nao tem maquinas nativas fixas, como acontece em maquinas NUMA e CC-NUMA. 
Na verdade, as paginas nao tem qualquer significado. 

Em vez disso, o espago de enderego flsico e subdividido em linhas de cache, que migram pelo sistema por 
demanda. Blocos nao tem maquinas nativas. Como nomades em alguns palses do Terceiro Mundo, seu lar e onde 
eles estao naquele momento. Uma memoria que apenas atrai linhas conforme necessario e denominada memoria 
de atragao. Usar a RAM principal com uma grande cache aumenta muito a taxa de presenga na cache e, por con- 
seguinte, o desempenho. 

Infelizmente, como sempre, nao existe almogo gratis. Sistemas COMA introduzem dois novos problemas: 

1. Como as linhas de cache sao localizadas? 

2. Quando uma linha e expurgada da memoria, o que acontece se ela for a ultima copia? 

O primeiro problema esta relacionado ao fa to de que, apos a MMU ter traduzido um enderego virtual para 
um enderego flsico, se a linha nao estiver na cache verdadeira de hardware, nao existe uma maneira facil de dizer 
se ela esta na memoria principal. O hardware de paginagao nao ajuda nada nesse caso, porque cada pagina e 
composta de muitas linhas de cache individuals que vagueiam de modo independente. Alem do mais, ainda que 
se saiba que uma linha nao esta na memoria principal, onde ela esta entao? Nao podemos perguntar a maquina 
“lar” porque essa maquina nao existe. 

Foram propostas algumas solugoes para o problema da localizagao. Para ver se uma linha de cache esta na 
memoria principal, poderia ser adicionado novo hardware para monitorar o rotulo de cada linha em cache. Entao, 
a MMU poderia comparar o rotulo da linha necessaria com os rotulos de todas as linhas de cache na memoria em 
busca de uma presenga na cache. Essa solugao precisa de hardware adicional. 
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Uma solugao um pouco diferente e mapear paginas inteiras, mas nao exigir que todas as linhas de cache este- 
jam presentes. Nessa solugao, o hardware precisaria de um mapa de bits por pagina, que desse um unico bit por 
hnha de cache indicando a presenga ou ausencia da linha. Nesse projeto, denominado COMA simples, se a linha 
de cache estiver presente, ela deve estar na posigao correta em sua pagina, mas, se nao estiver presente, qualquer 
tentativa de usa-la causa uma excegao para permitir que o software va acha-la e traze-la para dentro. 

Isso resulta em procurar linhas que sao de fato remotas. Uma solugao e dar a cada pagina uma maquina de 
residencia em termos do lugar onde esta a entrada de diretorio, mas nao daquele onde estao os dados. Entao, 
uma mensagem pode ser enviada a maquina nativa para, no minimo, localizar a linha de cache. Outros esquemas 
envolvem organizar memoria como uma arvore e procurar de baixo para cima ate encontrar a hnha. 

O segundo problema na lista que acabamos de citar esta relacionado com a nao remogao da ultima copia. 
Como em CC-NUMA, uma hnha de cache pode estar em varios nos ao mesmo tempo. Quando ocorre uma ausen¬ 
cia da cache , uma hnha deve ser buscada, o que costuma significar que uma linha deve ser descartada. O que 
acontece se, por acaso, a linha escolhida for a ultima copia? Nesse caso, ela nao pode ser descartada. 

Uma solugao e voltar ao diretorio e verificar se ha outras copias. Se houver, a linha pode ser descartada com 
seguranga. Caso contrario, ela tern de ser migrada para algum outro lugar. Outra solugao e identificar uma copia 
de cada hnha de cache como a copia mestra e nunca joga-la fora. Essa solugao evita ter de verificar o diretorio. 
Levando tudo em conta, COMA promete melhor desempenho do que CC-NUMA, mas poucas maquinas COMA 
foram construldas, portanto, e preciso mais experiencia. As duas primeiras maquinas COMA construldas foram 
a KSR-1 (Burkhardt et al.,1992) e a Data Diffusion Machine (Hagersten et al., 1992). Artigos mais recentes sobre 
COMA sao Vu et al., 2008; e Zhang e Jesshope, 2008. 


8.4 Multicomputadores de troca de mensagens 

Como vimos na Figura 8.23, os dois tipos de processadores paralelos MIMD sao multiprocessadores e mul¬ 
ticomputadores. Na segao anterior, estudamos os multiprocessadores. Vimos que eles aparecem para o sistema 
operacional como se tivessem memoria compartilhada que pode ser acessada usando instrugoes comuns LOAD e 
STORE. Essa memoria compartilhada pode ser executada de varias maneiras, como vimos, incluindo barramentos 
de escuta, crossbar de dados, redes de comutagao multiestagios e varios esquemas baseados em diretorio. Nao obs¬ 
tante, programas escritos para um multiprocessador podem acessar qualquer localizagao na memoria sem nada 
saber sobre a topologia interna ou o esquema de implementagao. Essa ilusao e que torna os multiprocessadores 
tao atraentes e e a razao de os programadores gostarem desse modelo de programagao. 

Por outro lado, os multiprocessadores tambem tern suas limitagoes, e e por isso que os multicomputadores 
tambem sao importantes. Antes de tudo, multiprocessadores nao podem ser ampliados para grandes tamanhos. 
Vimos a enorme quantidade de hardware que a Sun teve de usar para aumentar o numero de CPUs do E25K 
para 72. Por comparagao, logo adiante estudaremos um multicomputador que tern 65.536 CPUs. Ainda faltam 
muitos anos para que alguem construa um multiprocessador comercial com 65.536 nos e, entao, ja estarao em 
uso multicomputadores com milhoes de nos. 

Ademais, a contengao pela memoria em um multiprocessador pode afetar seriamente o desempenho. Se cem 
CPUs estiverem tentando ler e escrever as mesmas variaveis constantemente, a contengao pelas varias memorias, 
barramentos e diretorios pode resultar em um enorme impacto no desempenho. 

Como consequencia desses e de outros fatores, ha um grande interesse em construir e usar computadores 
paralelos nos quais cada CPU tern sua propria memoria privada, que nao pode ser acessada diretamente por qual¬ 
quer outra CPU. Eles sao os multicomputadores. Programas em CPUs de multicomputadores interagem usando 
primitivas como send e receive para trocar mensagens explicitamente, porque uma nao pode chegar ate a memo¬ 
ria da outra com instrugoes LOAD e STORE. Essa diferenga muda completamente o modelo de programagao. 

Cada no em um multicomputador consiste em uma ou algumas CPUs, alguma RAM (decerto comparti¬ 
lhada so entre as CPUs que estao naquele no), um disco e/ou outros dispositivos de E/S e um processador de 
comunicagao. Os processadores de comunicagao estao conectados por uma rede de intercomunicagao de alta 
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velocidade dos tipos que discutimos na Segao 8.3.3. Sao usadas muitas topologias, esquemas de comutagao 
e algoritmos de roteamento diferentes. O que todos os multicomputadores tem em comum e que, quando 
um programa de aplicagao executa a primitiva send, o processador de comunicagao e notificado e trans¬ 
mite um bloco de dados de usuario a maquina de destino, possivelmente apos pedir e obter permissao. Um 
multicomputador generico e mostrado na Figura 8.36. 


Figura 8.36 


Multicomputador generico. 



8.4.1 Redes de interconexao 

Na Figura 8.36, vemos que multicomputadores sao mantidos juntos por redes de interconexao. Agora, 
chegou a hora de examina-las mais de perto. O interessante e que multiprocessadores e multicomputadores sao 
surpreendentemente similares nesse aspecto, porque os primeiros muitas vezes tem varios modulos de memoria 
que tambem devem se interconectar uns com os outros e com as CPUs. Assim, o material nesta segao com fre¬ 
quence se aplica a ambos os tipos de sistemas. 

A razao fundamental por que redes de interconexao de multiprocessadores e multicomputadores sao seme- 
lhantes e que, no fundo, ambos usam troca de mensagens. Ate mesmo em uma maquina com uma unica CPU, 
quando o processador quer ler ou escrever uma palavra, sua agao tlpica e ativar certas linhas no barramento e 
esperar por uma resposta. Fundamentalmente, essa agao e como trocar mensagens: o iniciador envia uma requisi- 
gao e espera uma resposta. Em grandes multiprocessadores, a comunicagao entre CPUs e memoria remota quase 
sempre consiste em a CPU enviar a memoria uma mensagem expllcita, denominada pacote, requisitando alguns 
dados, e a memoria que devolve um pacote de resposta. 


• Topologia 

A topologia de uma rede de interconexao descreve como os enlaces e os computadores sao organizados, por 
exemplo, como um anel ou uma grade. Projetos topologicos podem ser modelados como grafos, com os enlaces 
representados por arcos e os switches por nos, como mostra a Figura 8.37. Cada no em uma rede de interconexao 
(ou em seu grafo) tem algum numero de enlaces conectados a ele. Matematicos denominam o numero de enlaces 
de grau do no; engenheiros o denominam fanout. Em geral, quanto maior o fanout, mais opgoes de roteamento 
ha e maior e a tolerancia a falha, isto e, a capacidade de continuar funcionando se um enlace falhar, fazendo um 
roteamento que contorna esse enlace. Se cada no tiver k arcos e a fiagao for executada de modo correto, e posslvel 
projetar a rede de modo que ela se mantenha totalmente conectada, mesmo que k - 1 enlaces falhem. 

Outra propriedade de uma rede de interconexao (ou de seu grafo) e o seu diametro. Se medirmos a distan- 
cia entre dois nos pelo numero de arcos que tem de ser percorridos para chegar de um ao outro, o diametro de 
um grafo e a distancia entre os dois nos que estao mais afastados (isto e, que tem a maior distancia entre eles). 
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O diametro de uma rede de interconexao esta relacionado ao pior atraso que pode ocorrer quando se enviam 
pacotes entre CPUs ou de CPU para memoria, porque cada salto por um enlace toma uma quantidade finita de 
tempo. Quanto menor for o diametro, melhor sera o desempenho no pior caso. Tambem importante e a distancia 
media entre dois nos, pois ela esta relacionada com o tempo medio de transito do pacote. 


Figura 8.37 Varias topologias. Os pontos grossos representam switches. As CPUs e as memorias nao sao mostradas. (a) Estrela. 

(b) Malha de interconexao completa. (c) Arvore. (d) Anel. (e) Grade, (f) Toro duplo. (g) Cubo. (h) Hipercubo 4D. 
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Ainda outra propriedade importante de uma rede de interconexao e sua capacidade de transmissao, isto e, 
quantos dados ela pode mover por segundo. Uma medida util dessa capacidade e a largura de banda de bissegao. 
Para calcular essa quantidade, temos primeiro que dividir (conceitualmente) a rede em duas partes iguais (em 
termos do numero de nos), porem nao conectadas, removendo um conjunto de arcos de seu grafo. Entao, calcu- 
lamos a largura de banda total dos arcos que foram removidos. Pode haver muitos tipos diferentes de partigao de 
rede em duas partes iguais. A largura de banda de bissegao e a minima de todas as posslveis partigoes. A signifi¬ 
cance desse numero e que, se ela for, por exemplo, 800 bits/s, entao, se houver muita comunicagao entre as duas 
metades, a vazao total pode ser limitada a apenas 800 bits/s, no pior caso. Muitos projetistas acham que a largura 
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de banda de bissegao e a metrica mais importante de uma rede de interconexao. Muitas redes de interconexao sao 
projetadas com o objetivo de maximizar a largura de banda de bissegao. 

Redes de interconexao podem ser caracterizadas por sua dimensionalidade. Para nossas finalidades, a 
dimensionalidade e determinada pelo numero de opgoes que ha para chegar da origem ao destino. Se nunca hou- 
ver alguma opgao, is to e, se houver somente um caminho entre a origem e o destino, a rede tern dimensao zero. 
Se houver uma dimensao na qual possa ser feita uma opgao, por exemplo, ir para o oeste ou ir para o leste, a rede 
e unidimensional. Se houver dois eixos de modo que um pacote possa ir para o leste ou para o oeste ou, como 
alternativa, possa ir para o norte ou para o sul, a rede e bidimensional e assim por diante. 

Varias topologias sao mostradas na Figura 8.37. Sao mostrados apenas os enlaces (linhas) e os switches 
(pontos). As memorias e CPUs (nao mostradas) em geral estariam ligadas aos switches por interfaces. Na Figura 
8.37(a), temos uma configuragao de dimensao zero em estrela, na qual as CPUs e memorias estariam ligadas aos 
nos externos e o no central so faria a cornutagao. Embora seja um projeto simples, no caso de um grande sistema 
e provavel que o switch central seja um importante gargalo. Ademais, da perspectiva da tolerancia a falha, esse 
projeto e ruim, uma vez que uma unica falha no switch central destroi completamente o sistema. 

Na Figura 8.37(b), temos outro projeto de dimensao zero que esta na outra extremidade do espectro, uma 
interconexao total. Nesse caso, cada no tern uma conexao direta para cada outro no. Esse projeto maximiza a 
largura de banda de bissegao, minimiza o diametro e tern altlssima tolerancia a falha (pode perder quaisquer seis 
enlaces e a rede ainda continuar totalmente conectada). Infelizmente, o numero de enlaces requerido para k nos 
e k(k - l)/2, o que logo sai do controle para um k grande. 

Outra topologia e a arvore, ilustrada na Figura 8.37(c). Um problema com esse projeto e que a largura de 
banda de bissegao e igual a capacidade do enlace. Como em geral havera muito trafego perto do topo da arvore, 
os poucos nos do topo se tornarao gargalos. Um modo de contornar esse problema e aumentar a largura de 
bissegao dando mais largura de banda aos enlaces que estao mais em cima. Por exemplo, os enlaces dos nlveis 
mais baixos poderiam ter uma capacidade b, o proximo nivel poderia ter uma capacidade 2b e os enlaces do 
nivel superior poderiam ter 4b cada um. Esse projeto e denominado arvore gorda e foi usado em multicompu- 
tadores comerciais, como os CM-5 da Thinking Machines, que nao existem mais. 

O anel da Figura 8.37(d) e uma topologia unidimensional pela nossa definigao, porque cada pacote envia- 
do tern uma opgao de ir para a direita ou para a esquerda. A grade ou malha da Figura 8.37(e) e um projeto 
bidimensional que tern sido usado em muitos sistemas comerciais. E de alta regularidade, facil de ampliar 
para tamanhos maiores e tern um diametro que aumenta apenas com a raiz quadrada do numero de nos. Uma 
variante da grade e o toro duplo da Figura 8.37(f), que e uma grade cujas extremidades sao conectadas. Alem 
de ser mais tolerante a falha do que a grade, seu diametro tambem e menor, porque as arestas opostas agora 
podem se comunicar em somente dois saltos. 

Outra topologia popular e o toro tridimensional. Nesse caso, a topologia consiste em uma estrutura 3D com 
nos nos pontos (i, j, k) onde todas as coordenadas sao numeros inteiros na faixa de (1, 1, 1) a (1, m, n). Cada no 
tern seis vizinhos, dois ao longo de cada eixo. Os nos nas extremidades tern enlaces que fazem a volta completa 
ate a extremidade oposta, exatamente como os toros 2D. 

O cubo da Figura 8.37(g) e uma topologia tridimensional regular. Ilustramos um cubo 2x2x2, mas no caso 
geral ele poderia ser um cubo k x k x k. Na Figura 8.37(h), temos um cubo quadridimensional construldo com 
dois cubos tridimensionais com os nos correspondentes conectados. Poderlamos fazer um cubo pentadimensional 
clonando a estrutura da Figura 8.37(h) e conectando os nos correspondentes para formar um bloco de quatro 
cubos. Para ir a seis dimensoes, poderlamos replicar o bloco de quatro cubos e interconectar os nos correspon¬ 
dentes e assim por diante. Um cubo n dimensional formado dessa maneira e denominado hipercubo. Muitos 
computadores paralelos usam essa topologia porque o diametro cresce linearmente com a dimensionalidade. Em 
outras palavras, o diametro e o logaritmo de base 2 do numero de nos, portanto, por exemplo, um hipercubo 
decadimensional tern 1.024 nos, mas um diametro de apenas 10, o que lhe confere excelentes propriedades de 
atraso. Note que, por comparagao, 1.024 nos organizados como uma grade 32 x 32 tern um diametro de 62, 
mais do que seis vezes pior do que o hipercubo. O prego pago pelo diametro menor e que o fanout e, por isso, 
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o numero de enlaces (e o custo), e muito maior para o hipercubo. Ainda assim, o hipercubo e uma escolha 
comum para sistemas de alto desempenho. 

Ha varios formatos e tamanhos de multicomputadores, portanto, e diflcil dar uma taxonomia clara para eles. 
Nao obstante, ha dois “estilos” que se destacam: os MPPs e os clusters. Estudaremos cada um por vez. 

8.4.2 MPPs - processadores macicamente paralelos 

A primeira categoria consiste nos MPPs ( Massively Parallel Processors - processadores macigamente 
paralelos), que sao imensos supercomputadores de muitos milhoes de dolares. Eles sao usados em ciencias, em 
engenharia e na industria para calculos muito grandes, para tratar numeros muito grandes de transagoes por 
segundo ou para data warehousing (armazenamento e gerenciamento de imensos bancos de dados). De inlcio, os 
MPPs eram usados principalmente como supercomputadores cientlficos, mas, agora, a maioria deles e usada em 
ambientes comerciais. Em certo sentido, essas maquinas sao as sucessoras dos poderosos mainframes da decada 
de 1960 (embora a conexao seja tenue, como se um paleontologo declarasse que um bando de pardais sao os 
descendentes do Tyrannosaurus Rex). Em grande proporgao, os MPPs substitulram maquinas SIMD, supercom¬ 
putadores vetoriais e processadores matriciais do topo da cadeia alimentar digital. 

A maioria dessas maquinas usa CPUs padronizadas como seus processadores. Opgoes populares sao o 
Pentium da Intel, a UltraSPARC da Sun e o PowerPC da IBM. O que destaca os MPPs e a utilizagao que fazem 
de uma rede de interconexao proprietaria de desempenho muito alto, projetada para mover mensagens com 
baixa latencia e a alta largura de banda. Esses dois aspectos sao importantes porque a grande maioria de todas as 
mensagens e de pequeno tamanho (bem abaixo de 256 bytes), mas grande parte do trafego total e causada por 
grandes mensagens (mais de 8 KB). Os MPPs tambem vem com extensivos softwares e bibliotecas proprietarias. 

Outro ponto que caracteriza os MPPs e sua enorme capacidade de E/S. Problemas grandes o suficiente para 
justificar a utilizagao de MPPs invariavelmente tern quantidades macigas de dados a processar, muitas vezes da 
ordem de terabytes. Esses dados devem ser distribuldos entre muitos discos e precisam ser movidos pela maquina 
a grande velocidade. 

Por fim, outra questao especlfica dos MPPs e sua atengao com a tolerancia a falha. Com milhares de CPUs, 
varias falhas por semana sao inevitaveis. Abortar uma execugao de 18 horas porque uma CPU falhou e inaceitavel, 
em especial quando se espera ter uma falha dessas toda semana. Assim, grandes MPPs sempre tern hardware e 
software especiais para monitorar o sistema, detectar falhas e recuperar-se delas facilmente. 

Embora fosse interessante estudar os princlpios gerais do projeto MPP agora, na verdade nao ha muitos prin- 
clpios. No fim das contas, um MPP e uma colegao de nos de computagao mais ou menos padronizados, conecta- 
dos por uma interconexao muito rapida dos tipos que ja estudamos. Portanto, em vez disso, vamos estudar agora 
dois exemplos de MPPs: BlueGene/P e Red Storm. 


• BlueGene 

Como um primeiro exemplo de um processador macigamente paralelo, examinaremos agora o sistema 
BlueGene da IBM. A IBM concebeu esse projeto em 1999 como um supercomputador macigamente paralelo para 
resolver problemas com grandes quantidades de calculos em areas das ciencias da vida, entre outras. Por exem¬ 
plo, biologos acreditam que a estrutura tridimensional de uma protelna determina sua funcionabdade, porem, 
calcular a estrutura 3D de uma pequena protelna a partir das leis da flsica levou anos nos supercomputadores 
daquela epoca. O numero de protelnas encontradas nos seres humanos e de mais de meio milhao e muitas delas 
sao muito grandes; sabe-se que seu desdobramento errado e responsavel por certas doengas como a fibrose clstica. 
E claro que determinar a estrutura tridimensional de todas as protelnas humanas exigiria aumentar em muitas 
ordens de grandeza a capacidade mundial de computagao e modelar o desdobramento de protelnas e apenas 
um dos problemas para cujo tratamento o BlueGene foi projetado. Desafios de igual complexidade em dinamica 
molecular, modelagem do clima, astronomia e ate mesmo modelagem financeira tambem requerem melhorias em 
supercomputagao de muitas ordens de grandeza. 
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A IBM achou que havia mercado suficiente para a supercomputagao maciga e investiu 100 milhoes de dolares 
no projeto e construgao do BlueGene. Em novembro de 2001, o Livermore National Laboratory, comandado pelo 
Departamento de Energia dos Estados Unidos, entrou como parceiro e primeiro cliente para a primeira versao da 
famllia BlueGene, denominada BlueGene/L. Em 2007, a IBM implantou a segunda geragao do supercomputador 
BlueGene, denominada BlueGene/P, que detalhamos aqui. 

A meta do projeto BlueGene nao era apenas fabricar o MPP mais rapido do mundo, mas tambem produzir o 
mais eficiente em termos de teraflops/dolar, teraflops/watt e teraflops/m 3 . Por essa razao, a IBM rejeitou a filoso- 
fia que fundamentava os MPPs anteriores, que era utilizar os componentes mais rapidos que o dinheiro pudesse 
comprar. Em vez disso, tomou a decisao de produzir um componente com um sistema-em-um-chip que execu- 
taria a uma velocidade modesta e com baixo consumo de energia, de modo a produzir a maior maquina posslvel 
com alta densidade de empacotamento. O primeiro BlueGene/P foi entregue a uma universidade da Alemanha 
em novembro de 2007. O sistema continha 65.536 processadores e era capaz de oferecer 167 teraflops/s. Quando 
implantado, ele foi o computador mais rapido da Europa e o sexto mais rapido do mundo. O sistema tambem era 
considerado um dos supercomputadores mais eficientes em termos de potencia de computagao do mundo, capaz 
de produzir 371 megaflops/W, tornando sua eficiencia de potencia quase o dobro daquela de seu predecessor, o 
BlueGene/L. A primeira implantagao do BlueGene/P foi atualizada em 2009 para incluir 294.912 processadores, 
dando-lhe um impulso computacional de 1 petaflop/s. 

O coragao do sistema BlueGene/P e o chip especial de no ilustrado na Figura 8.38. Ele consiste em quatro 
nucleos de PowerPC 450 executando a 850 MHz. O PowerPC 450 e um processador superescalar de emissao dual 
com pipeline , popular em sistemas embutidos. Cada nucleo tern um par de unidades de ponto flutuante de emissao 
dual que, juntas, podem emitir quatro instrugoes de ponto flutuante por ciclo de clock. As unidades de ponto 
flutuante foram aumentadas com uma quantidade de instrugoes do tipo SIMD que as vezes sao uteis em calculos 
cientlficos sobre matrizes. Embora nao seja nenhum preguigoso em materia de desempenho, esse chip claramente 
nao e um multiprocessador de topo de linha. 


Figura 8.38 Chip de processador sob especificacao BlueGene/P. 
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Ha tres nlveis de cache presentes no chip. O primeiro nlvel consiste em uma cache LI dividida com 32 KB 
para instrugoes e 32 KB para dados. O segundo e uma cache unificada de 2 KB. Na verdade, as caches L2 sao 
buffers de busca antecipada, em vez de caches verdadeiras. Elas escutam uma a outra e mantem consistencia de 
cache. O terceiro nlvel e uma cache compartilhada com 4 MB que alimenta dados para as caches L2. Os quatro 
processadores compartilham acesso aos dois modulos de cache L3 de 4 MB. Ha coerencia entre as caches LI nas 
quatro CPUs. Assim, quando uma parte compartilhada da memoria reside em mais de uma cache , os acessos a esse 
armazenamento por um processador serao imediatamente vislveis aos outros tres processadores. Uma referencia 
a memoria que encontrar uma ausencia da cache LI, mas obtiver uma presenga na L2, leva cerca de 11 ciclos de 
clock. Uma ausencia da cache L2 que encontra uma presenga na L3 leva cerca de 28 ciclos. Por fim, uma ausencia 
da cache L3, que tern de ir ate a DRAM principal, leva cerca de 75 ciclos. 

As quatro CPUs sao conectadas por meio de um barramento com alta largura de banda a uma rede de toros 
3D, que exige seis conexoes: para cima, para baixo, norte, sul, leste e oeste. Alem disso, cada processador tern 
uma porta para a rede coletiva, usada para a transmissao de dados a todos os processadores. A porta de barreira 
e usada para agilizar as operagoes de sincronizagao, dando a cada processador acesso rapido a uma rede de sin- 
cronizagao especializada. 

No proximo nlvel acima, a IBM projetou um cartao especial que contem dois dos chips mostrados na Ligura 
8.38 junto com 2 GB de DRAM DDR2. O chip e o cartao sao mostrados na Ligura 8.39(a)-(b), respectivamente. 

Os cartoes sao montados em placas de encaixe, com 32 cartoes por placa para um total de 32 chips (e, assim, 
128 CPUs) por placa. Visto que cada cartao contem 2 GB de DRAM, as placas contem 64 GB por pega. Uma placa 
e ilustrada na Ligura 8.39(c). No nlvel seguinte, 32 dessas placas sao conectadas em um gabinete, preenchendo 
um unico gabinete com 4.096 CPUs. Um gabinete e ilustrado na Ligura 8.39(d). 

Por fim, um sistema completo, que consiste em 72 gabinetes com 294.912 CPUs, e retratado na Ligura 
8.39(e). Um PowerPC 450 pode emitir ate 6 instrugoes/ciclo, de modo que um sistema BlueGene/P completo 
poderia emitir ate 1.769.472 instrugoes por ciclo. A 850 MHz, isso da ao sistema um desempenho posslvel de 
1.504 petaflops/s. Porem, concorrencias de dados, latencia da memoria e falta de paralelismo juntos conspiram 
para garantir que a vazao real do sistema seja muito menor. Programas reais rodando no BlueGene/P tern demons- 
trado taxas de desempenho de ate 1 petaflop/s. 


Figura 8.39 


BlueGene/P. (a) Chip, (b) Cartao. (c) Placa. (d) Gabinete. (e) Sistema. 
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O sistema e um multicomputador no sentido de que nenhuma CPU tem acesso direto a qualquer memoria, ex- 
ceto aos 2 GB em seu proprio cartao. Embora as CPUs dentro de um chip de processador tenham memoria 
compartilhada, os processadores no nlvel de cartao, gabinete e sistema nao compartilham a mesma memoria. Alem 
disso, nao ha paginagao por demanda porque nao ha discos locais a partir dos quais paginar. Em vez disso, o 
sistema tem 1.152 nos de E/S, que estao conectados a discos e a outros dispositivos perifericos. 

Levando tudo em conta, embora o sistema seja extremamente grande, tambem e muito direto, com pouca 
tecnologia nova, exceto na area de empacotamento de alta densidade. A decisao de mante-lo simples nao foi 
acidental, uma vez que uma das metas principais era alta confiabilidade e disponibilidade. Por conseguinte, 
uma grande quantidade de cuidadosa engenharia foi dedicada as fontes de energia, ventiladores, resfriamento 
e cabeamento, tendo como objetivo um tempo medio entre falhas de pelo menos dez dias. 

Para conectar todos os chips e preciso uma interconexao de alto desempenho, que possa ser ampliada. O 
projeto usado e um toro tridimensional que mede 72 x 32 x 32. Como consequencia, cada CPU precisa de apenas 
seis conexoes com a rede de toro, duas para outras CPUs que, em termos logicos, estao acima e abaixo dela, ao 
norte e ao sul dela, a leste e a oeste dela. Essas seis conexoes sao denominadas leste, oeste, norte, sul, para cima e 
para baixo, respectivamente, na Figura 8.38. Em termos flsicos, cada gabinete de 1.024 nos e um toro de 8 x 8 x 
16. Pares de gabinetes vizinhos formam um toro de 8 x 8 x 32. Quatro pares de gabinetes na mesma linha formam 
um toro de 8 x 32 x 32. Por fim, todas as 9 linhas formam um toro de 72 x 32 x 32. 

Portanto, todos os enlaces sao ponto a ponto e funcionam a 3,4 Gbps. Uma vez que cada um dos 73.728 nos 
tem tres enlaces para nos de numeros “mais altos”, um em cada dimensao, a largura de banda total do sistema 
e 752 terabits/s. O conteudo de informagao deste livro e de cerca de 300 milhoes de bits, incluindo toda a arte 
em forma to PostScript encapsulado, portanto, o BlueGene/P poderia mover 2,5 milhoes de copias deste livro por 
segundo. Para onde elas iriam e quern as desejaria fica como exerclcio para o leitor. 

A comunicagao no toro 3D e feita na forma de roteamento por atalho virtual. Essa tecnica e um pouco pare- 
cida com a comutagao de pacotes armazena e reenvia, exceto que os pacotes nao sao armazenados inteiros antes 
de serem reenviados. Tao logo um byte chegue a um no, ele pode ser repassado para o no seguinte ao longo do 
caminho, antes mesmo de o pacote inteiro ter chegado. Ambos os tipos de roteamento sao posslveis: o dinamico 
(adaptativo) e o determinlstico (fixo). Uma pequena quantidade de hardware de uso especial no chip e usada 
para implementar o atalho virtual. 

Alem do toro 3D principal usado para transporte de dados, ha outras quatro redes de comunicagao presentes. 
A segunda e uma rede combinada em forma de arvore. Muitas das operagoes realizadas em sistemas de alto grau 
de paralelismo tais como o BlueGene/P requerem participagao de todos os nos. Por exemplo, considere achar o 
valor mlnimo de um conjunto de 65.536 valores, um contido em cada no. A rede combinada junta todos os nos 
em uma arvore e, sempre que dois nos enviarem seus respectivos valores a um no de nlvel mais alto, ela seleciona 
o menor deles e o encaminha para cima. Desse modo, a quantidade de trafego que chega a raiz e bem menor do 
que a que chegaria se todos os 65.536 nos enviassem uma mensagem para la. 

A terceira rede e a rede de barreiras, usada para implementar barreiras globais e interrupgoes. Alguns algorit- 
mos funcionam em fases, sendo que cada no deve esperar ate que todos os outros tenham concluldo a fase antes 
de iniciar a seguinte. A rede de barreira permite que o software defina as fases e fornega um meio de suspender 
todas as CPUs de calculo que chegarem ao final de uma fase ate que todas as outras tambem tenham chegado ao 
final, quando entao todas sao liberadas. Interrupgoes tambem usam essa rede. 

Tan to a quarta quanto a quinta rede usam gigabit Ethernet. Uma delas conecta os nos de E/S aos servidores 
de arquivo, que sao externos ao BlueGene/P, e a Internet. A outra e usada para depurar o sistema. 

Cada um dos nos de CPU executa um pequeno nucleo especial, que suporta um unico usuario e um unico 
processo. Esse processo tem no maximo quatro threads , cada um executando em cada uma das CPUs no no. Essa 
estrutura simples foi projetada para alto desempenho e alta confiabilidade. 

Para confiabilidade adicional, o software de aplicagao pode chamar um procedimento de biblioteca para 
fazer um ponto de verificagao. Tao logo todas as mensagens pendentes tenham sido liberadas pela rede, pode-se 
criar e armazenar um ponto de verificagao global de modo que, no evento de uma falha do sistema, a tarefa pode 
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ser reiniciada a partir do ponto de verificagao, em vez de a partir do inlcio. Os nos de E/S executam um sistema 
operacional Linux tradicional e suportam multiplos processos. 

Continua o trabalho de desenvolvimento do sistema BlueGene da proxima geragao, denominado BlueGene/Q. 
Esse sistema devera estar disponlvel em 2012, e tera 18 processadores por chip de computagao, que tambem pos- 
sui multithreading simultaneo. Esses dois recursos deverao aumentar bastante o numero de instrugoes por ciclo 
que o sistema pode executar. O sistema devera alcangar velocidades de 20 petaflops/s. Para obter mais informa- 
goes sobre o BlueGene, veja Adiga et al., 2002; Alam et al., 2008; Almasi et ah, 2003a, 2003b; Blumrich et ah, 
2005; e IBM, 2008. 

• Red Storm 

Como nosso segundo exemplo de um MPP, vamos considerar a maquina Red Storm (tambem denominada 
Martelo de Thor) do Sandia National Laboratory. O Sandia e operado pela Lockheed Martin e executa trabalhos 
confidenciais e nao confidenciais para o Departamento de Energia dos Estados Unidos. Parte do trabalho confi- 
dencial esta relacionada ao projeto e a simulagao de armas nucleares, que exige aha capacidade de calculos. 

O Sandia esta nesse ramo ha muito tempo e produziu muitos supercomputadores de tecnologia de ponta ao 
longo dos anos. Durante decadas, deu preferencia a supercomputadores vetoriais, mas, com o tempo, a tecnologia 
e a economia tornaram os MPPs mais economicos em termos de custo. Em 2002, o MPP existente na epoca, deno¬ 
minado ASCI Red, estava ficando um pouco enferrujado. Embora tivesse 9.460 nos, coletivamente eles tinham 
meros 1,2 TB de RAM e 12,5 TB de espago de disco, e o sistema mal conseguia produzir 3 teraflops/s. Portanto, 
no verao de 2002, o Sandia escolheu a Cray Research, uma fabricante de supercomputadores ha muito tempo no 
mercado, para construir um substituto para o ASCI Red. 

O substituto foi entregue em agosto de 2004, um ciclo de projeto e execugao excepcionalmente curto para 
uma maquina de tao grande porte. A razao de o computador conseguir ser projetado e entregue com tamanha 
rapidez e que o Red Storm usa quase que so pegas de prateleira, exceto para um dos chips especialmente monta- 
dos, usado para roteamento. Em 2006, o sistema foi atualizado com novos processadores; detalhamos aqui essa 
versao do Red Storm. 

A CPU escolhida para o Red Storm foi a AMD Opteron dual-core a 2,4 GHz. A Opteron tern diversas carac- 
terlsticas fundamentais que influenciaram a escolha. A primeira e que ela tern tres modos operacionais. No modo 
herdado, ela executa programas binarios padrao Pentium sem modificagao. No modo de compatibilidade, o sis¬ 
tema operacional executa em modo 64 bits e pode enderegar 2 64 bytes de memoria, mas programas de aplicagao 
executam em modo 32 bits. Por fim, em modo 64 bits, a maquina inteira e de 64 bits e todos os programas podem 
enderegar todo o espago de enderego de 64 bits. Em modo 64 bits, e posslvel misturar e combinar software: pro¬ 
gramas de 32 bits e programas de 64 bits podem executar ao mesmo tempo, o que permite um facil caminho de 
atualizagao. 

A segunda caracterlstica fundamental que a Opteron tern e sua atengao ao problema da largura de banda 
da memoria. Nos ultimos anos, as CPUs estao ficando cada vez mais rapidas e a memoria nao consegue acom- 
panha-las, o que resulta em grande penalidade quando ha uma ausencia da cache de nlvel 2. A AMD integrou o 
controlador de memoria na Opteron, de modo que ela pode executar a velocidade do clock do processador em 
vez de a velocidade do barramento de memoria, o que melhora o desempenho da memoria. O controlador pode 
manusear oito DIMMS de 4 GB cada, para um total maximo de memoria de 32 GB por Opteron. No sistema Red 
Storm, cada Opteron tern apenas 2-4 GB. Contudo, a medida que a memoria fica mais barata, nao ha duvida de 
que mais sera adicionada no futuro. Utilizando Opterons dual-core , o sistema foi capaz de duplicar a potencia 
bruta de computagao. 

Cada Opteron tern seu proprio processador de rede dedicado, denominado Seastar, fabricado pela IBM. 
O Seastar e um componente crltico, uma vez que quase todo o trafego entre os processadores passa pela rede 
Seastar. Sem a interconexao de alta velocidade oferecida por esses chips fabricados especialmente, o sistema 
logo ficaria atolado em dados. 
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Embora as Opterons estejam disponlveis no comercio como mercadoria de prateleira, o empacotamento do 
Red Storm e fabricado por encomenda. Cada placa Red Storm contem quatro Opterons, 4 GB de RAM, quatro 
Seas tars, um processador RAS (Reliability, Availability, and Service - confiabilidade, disponibilidade e servigo) e 
um chip Ethernet de 100 Mbps, como ilustra a Figura 8.40. 


Figura 8.40 Pacote de componentes do Red Storm. 



Um conjunto de oito placas e conectado a um painel traseiro e inserido em uma porta-cartoes. Cada gabinete 
contem tres porta-cartoes para um total de 96 Opterons, mais as fontes de energia e ventiladores necessarios. O 
sistema completo consiste em 108 gabinetes para nos de calculo, o que da um total de 10.368 Opterons (20.736 
processadores) com 10 TB de SDRAM. Cada CPU so tern acesso a sua propria SDRAM. Nao ha nenhuma memoria 
compartilhada. A capacidade teorica de computagao do sistema e de 41 teraflops/s. 

A interconexao entre as CPUs Opteron e feita pelos roteadores Seastar, um roteador por CPU Opteron. Elas sao 
conectadas em um toro 3D de tamanho 27 x 16 x 24 com um Seastar em cada ponto da malha. Cada Seastar tern 
sete enlaces bidirecionais de 24 Gbps nas diregoes norte, leste, sul, oeste, para baixo, para cima e para a Opteron. O 
tempo de transito entre pontos adjacentes da malha e de 2 microssegundos, e pelo conjunto inteiro de nos e de ape- 
nas 5 microssegundos. Uma segunda rede que usa uma Ethernet de 100 Mbps e usada para servigo e manutengao. 

Alem dos 108 gabinetes de calculo, o sistema tambem contem 16 gabinetes para processadores de E/S 
e de servigo. Cada um desses gabinetes contem 32 Opterons. Essas 512 CPUs sao divididas: 256 para E/S e 
256 para servigo. O resto do espago e para discos, que sao organizados como RAID 3 e RAID 5, cada um com 
um drive de paridade e um sobressalente de entrada automatica. O espago total de disco e 240 TB. A largura 
de banda sustentada em disco e 50 GB/s. 

O sistema e repartido em segoes confidencial e nao confidencial, com switches entre as partes, de modo que 
podem ser acopladas ou desacopladas mecanicamente. Um total de 2.688 CPUs de calculo esta sempre na segao con¬ 
fidencial e outras 2.688 sempre na segao nao confidencial. As restantes 4.992 CPUs de calculo podem ser comutadas 
para qualquer segao, como demonstra a Figura 8.41. Cada uma das 2.688 Opterons confidenciais tern 4 GB de RAM; 
todas as outras tern 2 GB cada. O trabalho aparentemente confidencial utiliza mais memoria. Os processadores de 
E/S e de servigo sao subdivididos entre as duas partes. 
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O conjunto inteiro esta abrigado em um novo ediflcio de 2.000 m 2 especialmente construldo. O ediflcio 
e o local foram projetados de modo que o sistema possa ser ampliado para ate 30 mil Opterons no futuro, se 
for necessario. Os nos de calculo consomem 1,6 megawatt de energia; os discos consomem mais um megawatt. 
Somando os ventiladores e os aparelhos de ar condicionado, o pacote todo usa 3,5 MW. 


Figura 8.41 Sistema Red Storm visto de cima. 
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O hardware e o software do computador custaram 90 milhoes de dolares. O ediflcio e o sistema de refrigera- 
gao custaram mais 9 milhoes, portanto, o custo total ficou um pouco abaixo de 100 milhoes de dolares, embora 
uma parte dessa quantia seja custo de engenharia nao recorrente. Se voce quiser encomendar um clone exato, 
60 milhoes de dolares seria um bom numero para pensar. A Cray pretende vender versoes menores do sistema a 
outros governos e a clientes comerciais sob o nome X3T. 

Os nos de calculo executam um nucleo leve denominado catamount. Os nos de E/S e servigo executam o 
Linux normal com uma pequena adigao para suportar MPI (discutida mais adiante neste capltulo). Os nos RAS 
executam um Linux simplificado. Ha muito software ASCI Red disponlvel para usar no Red Storm, incluindo 
alocadores de CPU, escalonadores, bibliotecas MPI, bibliotecas matematicas, bem como programas de aplicagao. 

Com um sistema tao grande, conseguir alta confiabilidade e essencial. Cada placa tern um processador RAS 
para fazer manutengao do sistema e tambem ha facilidades especiais de hardware. A meta e um MTBL (Mean 
Time Between Lailures - tempo medio entre falhas) de 50 horas. O ASCI Red tinha MTBL para o hardware de 
900 horas, mas era atormentado por uma queda de sistema operacional a cada 40 horas. Embora o novo hardware 
seja muito mais confiavel do que o antigo, o ponto fraco continua sendo o software. 

Se quiser mais informagoes sobre o Red Storm, consulte Brightwell et al., 2005, 2010. 


• Uma comparacao entre BlueGene/P e Red Storm 

Red Storm e BlueGene/P sao comparaveis sob certos aspectos, porem diferentes sob outros, portanto, e 
interessante colocar alguns desses parametros fundamental lado a lado, como apresentado na Ligura 8.42. 

As duas maquinas foram construldas na mesma epoca, portanto, suas diferengas nao se devem a tecnolo- 
gia, mas as diferentes visoes dos projetistas e, ate certo ponto, as diferengas entre os fabricantes, IBM e Cray. 
O BlueGene/P foi projetado desde o inlcio como uma maquina comercial, que a IBM espera vender em grandes 
quantidades as empresas de biotecnologia, farmaceuticas e outras. O Red Storm foi construldo sob contrato espe¬ 
cial com o Sandia, embora a Cray tambem planeje construir uma versao menor para venda. 

A visao da IBM e clara: combinar nucleos existentes para construir um chip especial que possa ser produ- 
zido em massa a baixo custo, executar a baixa velocidade e ser interligado em numeros muito grandes usando 
uma rede de comunicagao de velocidade modesta. A visao do Sandia e igualmente clara, mas diferente: usar uma 
poderosa CPU de 64 bits de prateleira, projetar um chip de roteador muito rapido e acrescentar uma grande 
quantidade de memoria para produzir um no mais poderoso do que o BlueGene/P, de modo que uma quantidade 
menor deles sera necessaria e a comunicagao entre eles sera mais rapida. 
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Figura 8.42 


Comparacao entre BlueGene/P e Red Storm. 
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As consequencias dessas decisoes se refletiram no empacotamento. Como a IBM construiu um chip espe¬ 
cial combinando processador e roteador, conseguiu uma densidade de empacotamento mais alta: 4.096 CPUs/ 
gabinete. Como o Sandia preferiu um chip de CPU de prateleira, sem modificagao, e 2-4 GB de RAM por no, ele 
so conseguiu colocar 192 processadores de calculo em um gabinete. O resultado e que o Red Storm ocupa mais 
espago e consome mais energia do que o BlueGene/P. 

No mundo exotico da computagao de laboratorio de ambito nacional, o importante e o desempenho. Nesse 
aspecto, o BlueGene/P ganha, 1.000 TF/s contra 124 TF/s, mas o Red Storm foi projetado para ser expanslvel; 
portanto, acrescentando mais Opterons ao problema, o Sandia provavelmente conseguiria elevar seu desempenho 
de forma significativa. A IBM poderia responder aumentando um pouco o clock (850 MHz nao significa forgar 
muito a tecnologia existente). Em suma, os supercomputadores MPP ainda nao chegaram nem perto de quaisquer 
limites da flsica e continuarao crescendo por muitos anos. 

8.4.3 Computacao de cluster 

O outro estilo de multicomputador e o computador de cluster (Anderson et al., 1995; Martin et al., 1997). 
Em geral, consiste em centenas de milhares de PCs ou estagoes de trabalho conectadas por uma placa de rede dis- 
ponlvel no mercado. A diferenga entre um MPP e um cluster e analoga a diferenga entre um mainframe e um PC. 
Ambos tern uma CPU, ambos tern RAM, ambos tern discos, ambos tern um sistema operacional e assim por diante. 
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Porem, os do mainframe sao mais rapidos (exceto talvez o sistema operacional). No entanto, em termos qualita- 
tivos, eles sao considerados diferentes e sao usados e gerenciados de modo diferente. Essa mesma diferenga vale 
para MPPs em comparagao com clusters. 

Historicamente, o elemento fundamental que tornava os MPPs especiais era sua interconexao de alta veloci- 
dade, mas o recente langamento de interconexoes de alta velocidade comerciais, de prateleira, comegou a fechar 
essa lacuna. Levando tudo em conta, e provavel que os clusters empurrem os MPPs para nichos cada vez meno- 
res, exatamente como os PCs transformaram os mainframes em especialidades esotericas. O principal nicho para 
MPPs sao supercomputadores de alto prego, para os quais o desempenho de pico e tudo o que interessa e, se voce 
precisar perguntar o prego, e porque nao pode bancar um deles. 

Embora existam muitos tipos de clusters, ha duas especies que dominam: o centralizado e o descentralizado. 
O centralizado e um cluster de estagoes de trabalho ou PCs montado em uma grande estante em uma unica sala. 
As vezes, eles sao empacotados de um modo bem mais compacto do que o usual para reduzir o tamanho flsico 
e o comprimento dos cabos. Em geral, as maquinas sao homogeneas e nao tern perifericos, a nao ser cartoes de 
rede e, possivelmente, discos. Gordon Bell, o projetista do PDP-11 e do VAX, denominou essas maquinas estagoes 
de trabalho sem cabega (porque nao tern donos). Ficamos tentados a denomina-las COWs (vacas) sem cabega, 
mas ficamos com medo que esse termo ferisse a suscetibilidade de muitas vacas sagradas, portanto, desistimos. 

Clusters descentralizados consistem em estagoes de trabalho ou PCs espalhados por um predio ou campus. 
Grande parte deles fica ociosa por muitas horas no dia, em especial a noite. Costumam ser conectados por uma 
LAN. Em geral, sao heterogeneos e tern um conjunto completo de perifericos, embora ter um cluster com 1.024 
mouses na verdade nao e muito melhor do que ter um cluster sem mouse algum. O mais importante e que muitos 
deles tern proprietarios que tern um apego emocional as suas maquinas e tendem a olhar com desconfianga algum 
astronomo que queira simular o big bang nelas. Usar estagoes de trabalho ociosas para formar um cluster sempre 
significa dispor de algum meio de migrar tarefas para fora das maquinas quando seus donos as reivindicarem. A 
migragao e posslvel, mas aumenta a complexidade do software. 

De modo geral, os clusters sao conjuntos pequenos, na faixa de uma duzia a talvez 500 PCs. Contudo, tam- 
bem e posslvel construir clusters muito grandes com PCs de prateleira. O Google fez isso de modo interessante, 
que veremos agora. 


• Google 

Google e um sistema de busca popular para achar informagoes na Internet. Embora sua popularidade venha, 
em parte, de sua interface simples e tempo de resposta rapido, seu projeto nao e nada simples. Do ponto de vista 
do Google, o problema e que ele tern de achar, indexar e armazenar toda a World Wide Web (estimada em 40 
bilhoes de paginas), ser capaz de pesquisar a coisa toda em menos de 0,5 segundo e manipular milhares de con- 
sultas/segundo que vem do mundo inteiro, 24 horas por dia. Ademais, ele nao pode parar nunca, nem mesmo em 
face de terremotos, queda de energia eletrica, queda de redes de telecomunicagoes, falhas de hardware e bugs de 
software. E, e claro, tern de fazer tudo isso do modo mais barato posslvel. Montar um clone do Google definiti- 
vamente nao e um exerclcio para o leitor. 

Como o Google consegue? Para comegar, ele opera varias centrais de dados no mundo inteiro. Alem de essa 
tecnica proporcionar backups no caso de alguma delas ser engolida por um terremoto, quando o <www.google. 
com> e consultado, o enderego IP do remetente e inspecionado e e fornecido o enderego da central de dados mais 
proxima. E e para la que o browser envia a consulta. 

Cada central de dados tern, no mlnimo, uma conexao de fibra otica OC-48 (2,488 Gbps) com a Internet, 
pela qual recebe consultas e envia respostas, bem como uma conexao de backup OC-12 (622 Mbps) com outro 
provedor de telecomunicagoes diferente, caso o primario falhe. Ha fontes de energia ininterruptas e geradores 
de emergencia a diesel em todas as centrais de dados para manter o espetaculo em cena durante quedas de 
energia. Por conseguinte, quando acontece um grande desastre natural, o desempenho sofrera, mas o Google 
continuara funcionando. 
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Para entender melhor por que o Google escolheu essa arquitetura, e bom descrever de modo resumido como 
uma consulta e processada assim que chega a sua central de dados designada. Apos chegar a central de dados 
(etapa 1 na Figura 8.43), o balanceador de carga roteia a consulta para um dos muitos manipuladores de consultas 
(2) e para o revisor ortografico (3) e um servidor de anuncios publicitarios (4) em paralelo. Entao, as palavras 
procuradas sao pesquisadas nos servidores de Indice (5) em paralelo. Esses servidores content uma entrada para 
cada palavra na Web. Cada entrada relaciona todos os documentos (paginas Web, arquivos PDF, apresentagoes 
PowerPoint etc.) que contem a palavra, organizados por relevancia da pagina. A relevancia da pagina e determi- 
nada por uma formula complicada (e secreta), mas o numero de references para uma pagina e suas respectivas 
relevancias desempenha um papel importante. 


Figura 8.43 


Processamento de uma consulta no Google. 



Para obter maior desempenho, o indice e subdividido em partes denominadas fragmentos que podem ser 
pesquisadas em paralelo. Ao menos em termos conceituais, o fragmento 1 contem todas as palavras no indice, 
cada uma delas acompanhada pelos IDs dos n documentos de importance mais alta que contem aquela palavra. O 
fragmento 2 contem todas as palavras e os IDs dos n documentos de importance mais alta seguintes e assim por 
diante. A medida que a Web cresce, cada um desses fragmentos pode ser subdividido mais tarde, com as primei- 
ras k palavras em um conjunto de fragmentos, as proximas k palavras em um segundo conjunto de fragmentos e 
assim por diante, de modo a conseguir cada vez mais paralelismo na busca. 

Os servidores de indice retornam um conjunto de identificadores de documentos (6), que entao sao combina- 
dos de acordo com as propriedades booleanas da consulta. Por exemplo, se a pesquisa for para +digital +capivara 
+danga, entao so os identificadores de documentos que aparecem em todos os tres conjuntos sao usados para a 
proxima etapa. Nessa etapa (7), os proprios documentos sao referenciados para extrair seus titulos, URL e pedagos 
de texto que cercam os termos de pesquisa. Os servidores de documentos contem muitas copias de toda a Web em 
cada central de dados, que hoje sao centenas de terabytes. Os documentos tambem sao divididos em fragmentos 
para melhorar a pesquisa paralela. Embora o processamento de consultas nao exija a leitura da Web inteira (ou ate 
mesmo a leitura das dezenas de terabytes nos servidores de indice), ter de processar 100 MB por pesquisa e normal. 









































































500 


Organizacao estruturada de computadores 


Quando os resultados sao devolvidos ao manipulador de consultas (8), as paginas encontradas sao reunidas 
e classificadas por importancia. Se forem detectados potenciais erros de ortografia (9), eles sao anunciados, e 
anuncios publicitarios relevantes (10) sao adicionados. Apresentar propaganda de anunciantes interessados em 
comprar termos de consulta especlficos (por exemplo, “hotel” ou “filmadora”) e o modo como o Google ganha 
seu dinheiro. Por fim, os resultados sao formatados em HTML (HyperText Markup Language - linguagem de 
marcagao de hipertexto) e enviados ao usuario como uma pagina Web. 

Munidos dessas informagoes basicas, agora podemos examinar a arquitetura do Google. A maioria das 
empresas, quando confrontadas com um imenso banco de dados, taxa de transmissao maciga e a necessidade de 
alta confiabilidade, compraria o equipamento maior, mais rapido e mais confiavel existente no mercado. O Google 
fez exatamente o oposto. Comprou PCs baratos, de desempenho modesto. Muitos deles. E, com eles, montou o 
maior cluster de prateleira do mundo. O princlpio diretor dessa decisao foi simples: otimizar prego/desempenho. 

A logica que fundamentou essa decisao esta na economia: PCs normais sao muito baratos. Servidores de alta 
tecnologia nao sao, e grandes multiprocessadores, menos ainda. Assim, conquanto um servidor de alta tecnologia 
pudesse ter duas ou tres vezes o desempenho de um PC desktop comum, normalmente seu prego seria 5 a 10 
vezes mais alto, o que nao e eficiente em termos de custo. 

Claro que PCs baratos falham mais do que servidores de topo de linha, mas os ultimos tambem falham, 
portanto, o software do Google tinha de ser projetado para funcionar com hardware que falhava, nao importando 
qual equipamento estivesse usando. Uma vez escrito o software tolerante a falhas, na verdade nao importava que a 
taxa de falha fosse 0,5% por ano ou 2% por ano, elas teriam de ser tratadas. A experiencia do Google diz que cerca 
de 2% dos PCs falham a cada ano. Mais da metade das falhas se deve a discos defeituosos, seguidos por fontes de 
energia e chips de RAM. Uma vez construldas, as CPUs nunca falham. Na verdade, a maior fonte de quedas nao 
e o hardware; e o software. A primeira reagao a uma queda e apenas reinicializar, o que muitas vezes resolve o 
problema (o equivalente eletronico de um medico dizer: “Tome duas aspirinas e va para a cama”). 

Um tlpico PC moderno do Google consiste em um processador Intel de 2 GHz, 4 GB de RAM e um disco de 
cerca de 2 TB, o tipo de maquina que uma avo compraria para verificar seu e-mail de vez em quando. O unico 
item especializado e um chip Ethernet. Nao exatamente um chip de ultima geragao, mas um muito barato. Os PCs 
sao acondicionados em caixas de 1 unidade de altura (cerca de 5 cm de espessura) e empilhados em grupos de 
40 em estantes de 50 centlmetros, uma pilha na frente e uma atras, para um total de 80 PCs por estante. Os PCs 
que estao em uma estante sao conectados por Ethernet comutada e o switch esta dentro da estante. As estantes em 
uma central de dados tambem sao conectadas por Ethernet comutada, com dois switches redundantes por central 
de dados usados para sobreviver a falhas de switches . 

O layout de uma tlpica central de dados Google e ilustrado na Figura 8.44. A fibra OC-48 de alta largura de 
banda de entrada e roteada para cada um de dois switches Ethernet de 128 portas. De modo semelhante, a fibra 
OC-12 de backup tambem e roteada para cada um dos dois switches. As fibras de entrada usam cartoes especiais 
de entrada e nao ocupam qualquer uma das 128 portas Ethernet. 

Quatro enlaces Ethernet saem de cada estante: dois para o switch da esquerda e dois para o da direita. Nessa 
configuragao, o sistema pode sobreviver a falha de qualquer dos dois switches. Uma vez que cada estante tern 
quatro conexoes com o switch (dois dos 40 PCs da frente e dois dos 40 PCs de tras), e preciso quatro falhas de 
enlace ou duas falhas de enlace e uma de switch para tirar uma estante de linha. Com um par de switches de 128 
portas e quatro enlaces de cada estante, ate 64 estantes podem ser suportadas. Com 80 PCs por estante, uma cen¬ 
tral de dados pode ter ate 5.120 PCs. Mas, e claro, as estantes nao tern de conter exatamente 80 PCs e os switches 
podem ser maiores ou menores do que 128 portas; esses dados sao apenas valores tlpicos de um cluster Google. 

A densidade de energia tambem e uma questao fundamental. Um PC tlpico utiliza 120 watts, ou cerca de 
10 kW por estante. Uma estante precisa de cerca de 3 m 2 para que o pessoal de manutengao possa instalar e remo¬ 
ver PCs e para que o condicionamento de ar funcione. Esses parametros dao uma densidade de energia de mais 
de 3.000 watts/m 2 . A maioria das centrais de dados e projetada para 600-1.200 watts/m 2 , portanto, sao necessarias 
medidas especiais para refrigerar as estantes. 
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Figura 8.44 


fluster Google tipico. 
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O Google aprendeu tres coisas sobre implementar servidores Web macigamente paralelos, que e bom repetir: 

1. Componentes falham, portanto, planeje a falha. 

2. Duplique tudo para manter a vazao e a disponibilidade. 

3. Otimize prego/desempenho. 

O primeiro item diz que voce precisa ter software tolerante a falhas. Mesmo com o melhor dos equipamentos, 
se voce tiver um numero macigo de componentes, algum falhara e o software tern de ser capaz de tratar o erro. Quer 
voce tenha uma falha por semana ou duas, com sistemas desse tamanho o software tern de ser capaz de trata-las. 

O segundo item indica que ambos, hardware e software, tern de ter alto grau de redundancia. Alem de melho- 
rar as propriedades de tolerancia a falhas, isso tambem melhora a vazao. No caso do Google, os PCs, discos, cabos e 
switches sao todos replicados muitas vezes. Alem do mais, o Indice e os documentos sao subdivididos em fragmen- 
tos e estes sao muito replicados em cada central de dados, e as proprias centrais de dados tambem sao replicadas. 

O terceiro item e uma consequencia dos dois primeiros. Se o sistema foi projetado corretamente para lidar 
com falhas, comprar componentes caros como RAIDs com discos SCSI e um erro. Ate eles falharao, mas gas tar dez 
vezes mais para reduzir a taxa de falhas a metade e uma ma ideia. Melhor comprar dez vezes mais em hardware e 
tratar as falhas quando elas ocorrerem. No mlnimo, ter mais hardware resultara em melhor desempenho quando 
tudo estiver funcionando. 

Se quiser mais informagoes sobre o Google, veja Barroso et al., 2003; e Ghemawat et al., 2003. 
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8.4.4 Software de comunicacao para multicomputadores 

Programar um multicomputador requer software especial, quase sempre bibliotecas, para manipular a comu¬ 
nicagao e a sincronizagao entre processos. Nesta segao, vamos falar um pouco sobre esse software. Na maioria 
das vezes, os mesmos pacotes de software executam em MPPs e clusters, portanto, e facil portar aplicagoes entre 
plataformas. 

Sistemas de troca de mensagens tem dois ou mais processos que executam independentemente um do outro. 
Por exemplo, um processo pode produzir alguns dados e um, ou outros mais, podem consumi-los. Nao ha qual- 
quer garantia de que, quando o remetente tiver mais dados, os receptores estarao prontos para ele, pois cada um 
executa seu proprio programa. 

A maioria dos sistemas de troca de mensagens fornece duas primitivas (em geral, chamadas de biblioteca), 
send e receive, mas diversos tipos de semanticas sao posslveis. As tres variantes principais sao: 

1. Troca slncrona de mensagens. 

2. Troca de mensagens por buffers. 

3. Troca de mensagens sem bloqueio. 


Na troca slncrona de mensagens, se o remetente executa um send e o receptor ainda nao executou um 
receive, o remetente e bloqueado (suspenso) ate que o receptor execute um receive, quando entao a mensagem e 
copiada. Quando o remetente obtiver de novo o controle apos a chamada, ele sabe que a mensagem foi enviada 
e corretamente recebida. Esse metodo e o que tem a semantica mais simples e nao requer operagao alguma de 
buffer. Porem, uma seria desvantagem e que o remetente permanece bloqueado ate que o receptor tenha adquirido 
a mensagem e reconhecido seu recebimento. 

Na troca de mensagens com buffer, quando uma mensagem e enviada antes de o receptor estar pronto, ela 
e colocada em algum buffer, por exemplo, em uma caixa de correio, ate que o receptor a retire dali. Assim, nesse 
tipo de troca, um remetente pode continuar apos um send, ainda que o receptor esteja ocupado com alguma outra 
coisa. Visto que a mensagem ja foi enviada, o remetente esta livre para reutilizar de imediato o buffer de mensagens. 
Esse esquema reduz o tempo que o remetente tem de esperar. Basicamente, tao logo ele tenha enviado a mensagem, 
podera continuar. Todavia, agora, o remetente nao tem nenhuma garantia de que a mensagem foi corretamente rece¬ 
bida. Ainda que a comunicagao seja confiavel, o receptor pode ter sofrido uma avaria antes de receber a mensagem. 

Na troca de mensagens sem bloqueio, o remetente tem permissao para continuar imediatamente apos fazer 
a chamada. A biblioteca apenas diz ao sistema operacional para fazer a chamada mais tarde, quando tiver tempo. 
Por conseguinte, o remetente mal fica bloqueado. A desvantagem desse metodo e que, quando o remetente conti- 
nua apos a send, talvez nao possa reutilizar o buffer de mensagens porque a mensagem pode nao ter sido enviada 
ainda. Ele precisa descobrir, de alguma forma, quando pode utilizar novamente o buffer. Uma ideia e fazer com 
que o remetente pergunte ao sistema. Outra e obter uma interrupgao quando o buffer estiver disponlvel. Nenhuma 
delas simplifica o software. 

Logo adiante, vamos discutir brevemente um sistema popular de troca de mensagens disponlvel em muitos 
multicomputadores: a MPI. 


• MPI - Interface de troca de mensagens 

Durante muitos anos, o pacote de comunicagao mais popular para multicomputadores foi a PVM (Parallel 
Virtual Machine - maquina virtual paralela) (Geist et al., 1994; e Sunderram, 1990). Contudo, nos ultimos anos ele 
vem sendo substituldo em grande parte pela MPI (Message-Passing Interface - interface de troca de mensagens). A 
MPI e muito mais rica e mais complexa do que a PVM, tem muito mais chamadas de biblioteca, muito mais opgoes 
e muito mais parametros por chamada. A versao original da MPI, agora denominada MPI-1, foi ampliada pela MPI-2 
em 1997. Mais adiante, daremos uma introdugao muito sucinta a MPI-1 (que contem todos os aspectos basicos) e 
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em seguida comentaremos um pouco o que foi adicionado na MPI-2. Se o leitor quiser mais informagoes sobre MPI, 
pode consultar Gropp et al., 1994; e Snir et al., 1996. 

A MPI-1 nao lida com criagao nem gerenciamento de processo, como a PVM. Cabe ao usuario criar proces- 
sos usando chamadas locais de sistema. Uma vez criados, os processos sao organizados em grupos estaticos de 
processos, que nao sao alterados. E com esses grupos que a MPI trabalha. 

A MPI e baseada em quatro conceitos principals: comunicadores, tipos de dados de mensagens, operagoes de 
comunicagao e topologias virtuais. Um comunicador e um grupo de processos mais um contexto. Um contexto e 
um rotulo que identifica algo, como uma fase de execugao. Quando mensagens sao enviadas e recebidas, o con¬ 
texto pode ser usado para impedir que mensagens nao relacionadas interfiram umas com as outras. 

Mensagens tern tipos e muitos tipos de dados sao suportados, entre eles caracteres, numeros inteiros lon- 
gos, normais e curtos, numeros de ponto flutuante de precisao simples e de precisao dupla, e assim por diante. 
Tambem e posslvel construir outros tipos derivados desses. 

A MPI suporta um extenso conjunto de operagoes de comunicagao. A mais basica e usada para enviar men¬ 
sagens, como a seguir: 

MP\_Ser\6(buffer, quant, tipo_dado, destino, rotulo, comunicador) 

Essa chamada envia ao destino um buffer com um numero quant de itens do tipo de dados especificado. O 
campo rotulo rotula a mensagem de modo que o receptor possa dizer que so quer receber uma mensagem com aque- 
le rotulo. O ultimo campo informa em qual grupo de processos esta o destinatario (o campo destino e apenas um 
Indice para a lista de processos do grupo especificado). A chamada correspondente para receber uma mensagem e: 

N\P\_Recv(&.buffer, quant, tipo_dado, origem, rotulo, comunicador, & status) 
que anuncia que o receptor esta procurando uma mensagem de certo tipo vinda de certa origem com certo rotulo. 

A MPI suporta quatro modos basicos de comunicagao. O modo 1 e slncrono, no qual o remetente nao pode 
comegar a enviar ate que o receptor tenha chamado MPI_Recv. O modo 2 usa buffer e, com ele, a restrigao que 
acabamos de citar nao e valida. O modo 3 e o padrao, que e dependente da implementagao e pode ser slncrono 
ou com buffer. O modo 4 e o modo pronto, no qual o remetente declara que o receptor esta disponlvel (como 
no modo slncrono), mas nao faz qualquer verificagao. Cada uma dessas primitivas vem em uma versao com ou 
sem bloqueio, o que resulta em oito primitivas no total. A recepgao tern so duas variantes: com e sem bloqueio. 

A MPI suporta comunicagao coletiva, incluindo broadcast , espalha/reune, permuta total, agregagao e bar- 
reira. Seja qual for a forma de comunicagao coletiva, todos os processos em um grupo devem fazer a chamada e 
com argumentos compatlveis. Nao fazer isso e um erro. Uma forma tlpica de comunicagao coletiva sao processos 
organizados em uma arvore, na qual os valores se propagam das folhas para a raiz, passando por algum proces- 
samento a cada etapa, por exemplo, somar valores ou apanhar o valor maximo. 

Um conceito basico em MPI e a topologia virtual, na qual os processos podem ser organizados em topologia 
de arvore, anel, grade, toro ou outra, pelo usuario e por aplicagao. Essa organizagao proporciona um meio de 
nomear caminhos de comunicagao e facilita a comunicagao. 

A MPI-2 adiciona processos dinamicos, acesso a memoria remota, comunicagao coletiva sem bloqueio, 
suporte para E/S escalavel, processamento em tempo real e muitas outras novas caracterlsticas que fogem do esco- 
po deste livro. Durante anos, foi travada uma batalha na comunidade cientlfica entre os defensores da MPI e da 
PVM. O lado da PVM afirmava que a PVM era mais facil de aprender e mais simples de usar. O lado da MPI dizia 
que a MPI faz mais e tambem destacava que ela e um padrao formal, apoiada por um comite de padronizagao e um 
documento oficial de definigao. O lado da PVM concordou, mas declarou que a falta de uma burocracia completa 
de padronizagao nao e necessariamente uma desvantagem. Depois de muita discussao, parece que a MPI venceu. 

8.4.5 Escalonamento 

Programadores de MPI podem criar jobs com facilidade requisitando varias CPUs e executando durante 
perlodos substanciais de tempo. Quando varias requisigoes independentes estao disponlveis vindas de diferentes 
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usuarios, cada uma necessitando de um numero diferente de CPUs por perlodos de tempo diferentes, o cluster 
precisa de um escalonador para determinar qual job e executado e quando. 

No modelo mais simples, o escalonador de jobs requer que cada um especifique quantas CPUs necessita. 
Entao, os jobs sao executados em estrita ordem FIFO, como mostra a Figura 8.45(a). Nesse modelo, apos um job 
ser iniciado, verifica-se se ha numero suficiente de CPUs disponlveis para iniciar o proximo job que esta na fila 
de entrada. Se houver, este e iniciado e assim por diante. Caso contrario, o sistema espera ate que mais CPUs 
fiquem disponlveis. A proposito, embora tenhamos sugerido que esse cluster tern oito CPUs, ele poderia perfei- 
tamente ter 128 CPUs que sao alocadas em unidades de 16 (o que resulta em oito grupos de CPUs) ou alguma 
outra combinagao. 


Figura 8.45 


Escalonamento de um cluster, (a) FIFO, (b) Sem bloqueio de cabeca de fila. (c) Lajotas. As areas sombreadas indicam CPUs 
ociosas. 
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Um algoritmo de escalonamento melhor evita bloqueio de cabega de fila saltando jobs que nao cabem e 
escolhendo o primeiro que couber. Sempre que um job termina, uma fila de jobs remanescentes e verificada em 
ordem FIFO. Esse algoritmo resulta na Figura 8.45(b). 

Um algoritmo de escalonamento ainda mais sofisticado requer que cada job apresentado especifique seu for- 
mato, isto e, quantas CPUs ele quer durante quantos minutos. Com essa informagao, o escalonador de jobs pode 
tentar montar um esquema em lajotas com o tempo da CPU. Esse esquema e especialmente eficaz quando os jobs 
sao apresentados durante o dia para execugao a noite, de modo que o escalonador tern todas as informagoes sobre 
os jobs com antecedencia e pode executa-los na melhor ordem, como ilustrado na Figura 8.45(c). 

8.4.6 Memoria compartilhada no nivel de aplicacao 

Algo que deve ficar claro por nossos exemplos e que os multicomputadores podem ser ampliados para tama- 
nhos maiores do que os multiprocessadores. Essa realidade levou ao desenvolvimento de sistemas de troca de 
mensagens como a MPI. Muitos programadores nao apreciam esse modelo e gostariam de ter a ilusao de memoria 
compartilhada, ainda que ela nao estivesse realmente ah. Atingir esse objetivo seria o melhor de ambos os mun- 
dos: hardware grande e barato (pelo menos, por no), alem de facilidade de programagao. Esse e Santo Graal da 
computagao paralela. 

Muitos pesquisadores conclulram que, embora a capacidade de ampliagao da memoria compartilhada no 
nivel da arquitetura nao seja boa, pode haver outros modos de alcangar o mesmo objetivo. Pela Figura 8.21, 
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vemos que ha outros nlveis nos quais uma memoria compartilhada pode ser introduzida. Nas segoes seguintes, 
examinaremos alguns modos pelos quais a memoria compartilhada pode ser introduzida em um multicomputa- 
dor no modelo de programagao, sem estar presente no nivel do hardware. 


• Memoria compartilhada distribuida 

Uma classe de sistema de memoria compartilhada no nivel de aplicagao e o sistema baseado em paginas. 
E conhecido pelo nome DSM (Distributed Shared Memory - memoria compartilhada distribuida). A ideia e 
simples: um conjunto de CPUs em um multicomputador compartilha um espago de enderego virtual paginado. 
Na versao mais simples, cada pagina e mantida na RAM de exatamente uma CPU. Na Figura 8.46(a), vemos um 
espago de enderego virtual compartilhado que consiste em 16 paginas, distribuldas por quatro CPUs. 

Quando uma CPU referencia uma pagina em sua propria RAM local, a escrita ou leitura apenas ocorre, sem 
mais demora. Contudo, quando referencia uma pagina em uma memoria remota, obtem uma falta de pagina. 
So que, em vez de a pagina faltante ser trazida do disco, o sistema de execugao ou o sistema operacional envia 
uma mensagem ao no que contem a pagina ordenando que ele a desmapeie e a envie. Apos a pagina chegar, ela 
e mapeada e a instrugao que falta e reiniciada, exatamente como uma falta de pagina normal. Na Figura 8.46(b), 
vemos a situagao apos a CPU 0 ter sofrido uma falta na pagina 10: ela e movida da CPU 1 para a CPU 0. 


Figura 8.46 Espaco de endereco virtual que consiste em 16 paginas distribuldas por quatro nos de um multicomputador. (a) Situacao ini- 
cial. (b) Apos a CPU 0 referenciar a pagina 10. (c) Apos a CPU 1 referenciar a pagina 10, nesfe caso considerando que ela e 
uma pagina somente de leitura. 
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Essa ideia basica foi executada pela primeira vez no IVY (Li e Hudak, 1989). Ela proporciona uma memoria 
totalmente compartilhada e sequencialmente consistente em um multicomputador. Contudo, ha muitas otimi- 
zagoes posslveis para melhorar o desempenho. A primeira, presente no IVY, e permitir que as paginas marcadas 
como somente de leitura estejam presentes em varios nos ao mesmo tempo. Assim, quando ocorre uma falta de 
pagina, uma copia dela e enviada para a maquina onde ocorreu a falta, mas a original fica onde esta, ja que nao ha 
nenhum perigo de conflitos. A situagao de duas CPUs que compartilham uma pagina somente de leitura (pagina 
10) e ilustrada na Figura 8.46(c). 

Mesmo com essa otimizagao, o desempenho muitas vezes e inaceitavel, em especial quando um processo 
esta escrevendo ativamente algumas palavras no topo de alguma pagina e outro processo em uma CPU diferente esta 
escrevendo ativamente algumas palavras no final da pagina. Visto que so existe uma copia da pagina, ela ficara 
em constante ir e vir, uma situagao conhecida como falso compartilhamento. 

O problema do falso compartilhamento pode ser tratado de varias maneiras. No sistema Treadmarks, por 
exemplo, a memoria sequencialmente consistente e abandonada em favor da consistencia de liberagao (Amza, 
1996). Paginas que podem ser escritas conseguem estar presentes em multiplos nos ao mesmo tempo, mas, antes 
de fazer uma escrita, um processo deve primeiro realizar uma operagao acquire para sinalizar sua intengao. Nesse 
ponto, todas as copias, exceto a mais recente, sao invalidadas. Nenhuma outra copia pode ser feita ate que seja 
executada a release correspondente, quando entao a pagina pode ser compartilhada novamente. 

Uma segunda otimizagao feita em Treadmarks e mapear inicialmente cada pagina que pode ser escrita, em 
modo somente de leitura. Quando a pagina e escrita pela primeira vez, ocorre uma falha de protegao e o sistema 
faz uma copia da pagina, denominada gemea. Entao, a pagina original e mapeada como de leitura-escrita e as 
escritas subsequentes podem prosseguir a toda velocidade. Quando ocorrer uma falta de pagina remota mais 
tarde, e a pagina tiver de ser despachada para onde ocorreu a falta, e realizada uma comparagao palavra por 
palavra entre a pagina corrente e a gemea. Somente as palavras que foram alteradas sao enviadas, o que reduz 
o tamanho das mensagens. 

Quando ocorre uma falta de pagina, a pagina que esta faltando tern de ser localizada. Ha varias solugoes pos¬ 
slveis, incluindo as usadas em maquinas NUMA e COMA, tais como diretorios (residentes). Na verdade, muitas 
das solugoes usadas em DSM tambem sao aplicaveis a NUMA e COMA porque, na realidade, DSM e apenas uma 
execugao em software de NUMA ou COMA na qual cada pagina e tratada como uma linha de cache. 

DSM e uma area de pesquisa muito promissora. Entre os sistemas interessantes citamos CASHMERE 
(Kontothanassis et al., 1997; e Stets et al., 1997), CRL (Johnson et ah, 1995), Shasta (Scales et ah, 1996) e 
Treadmarks (Amza, 1996; e Lu et ah, 1997). 


• Linda 

Sistemas DSM baseados em paginas como o IVY e o Treadmarks usam o hardware MMU para causar 
excegoes de acesso as paginas faltantes. Embora calcular e enviar diferengas em vez da pagina inteira ajude, 
permanece o fato de que paginas nao sao uma unidade natural para compartilhamento, portanto, foram 
tentadas outras tecnicas. 

Uma delas e Linda, que fornece processos em varias maquinas com uma memoria compartilhada distribulda 
com alto grau de estruturagao (Carriero e Gelernter, 1989). Essa memoria e acessada por meio de um pequeno 
conjunto de operagoes primitivas que podem ser adicionadas a linguagens existentes, como C e FORTRAN, para 
formar linguagens paralelas, nesse caso, C-Linda e FORT RAN-Linda. 

O conceito unificador fundamental de Linda e o de um espago de tuplas abstrato, que e global para o sistema 
inteiro e acesslvel a todos os seus processos. O espago de tuplas e como uma memoria global compartilhada, so 
que com certa estrutura embutida. O espago de tuplas contem certa quantidade de tuplas, cada uma delas con- 
sistindo em um ou mais campos. Para C-Linda, os tipos de campos incluem inteiros, inteiros longos e numeros 
de ponto flutuante, bem como tipos compostos como vetores (incluindo cadeias) e estruturas (mas nao outras 
tuplas). A Figura 8.47 mostra tres exemplos de tuplas. 
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A_ 

Figura 8.47 Tres tuplas Linda. 


("abc", 2, 5) 

("matrix-1", 1, 6, 3.14) 

("family", "is sister", Carolyn, Elinor) 

-« 


Sao quatro as operagoes efetuadas em tuplas. A primeira, out, coloca uma tupla no espago de tuplas. Por 
exemplo, 

outfabc”, 2, 5); 

coloca a tupla (“abc”, 2, 5) no espago de tuplas. Os campos de out normalmente sao constantes, variaveis 
ou expressoes, como em 

out(“matrix-1 ”, i, j, 3.14); 

que produz uma tupla com quatro campos, o segundo e terceiro dos quais sao determinados pelos valores cor- 
rentes das variaveis i e j. 

Tuplas sao recuperadas do espago de tuplas pela primitiva in. Elas sao enderegadas pelo conteudo em vez de 
pelo nome ou enderego. Os campos de in podem ser expressoes ou parametros formais. Considere, por exemplo, 

in(“abc”, 2, ? i); 

Essa operagao “pesquisa” o espago de tuplas em busca de uma composta por uma cadeia “abc”, pelo inteiro 2, 
e por um terceiro campo que contem qualquer inteiro (considerando que i e um inteiro). Se encontrada, ela e 
retirada do espago de tuplas e o valor do terceiro campo e atribuldo a variavel i. A combinagao e a remogao sao 
atomicas, portanto, se dois processos executarem a mesma operagao in simultaneamente, so um deles sera bem- 
-sucedido, a menos que duas ou mais tuplas compatlveis estejam presentes. O espago de tuplas pode ate conter 
multiplas copias da mesma tupla. 

O algoritmo de combinagao usado por in e direto. Os campos da primitiva in, denominados gabarito, sao 
comparados, conceitualmente, com os campos correspondentes de toda tupla que estiver no espago de tuplas. 
Ocorre uma combinagao se todas as tres condigoes a seguir forem cumpridas: 

1. O gabarito e a tupla tern o mesmo numero de campos. 

2. Os tipos dos campos correspondentes sao iguais. 

3. Cada constante ou variavel no gabarito e compatlvel com seu campo de tupla. 

Parametros formais, indicados por um ponto de interrogagao seguido por um nome ou tipo de variavel, nao 
participam da combinagao (exceto para verificagao do tipo), embora os que contem um nome de variavel sejam 
atribuldos apos uma combinagao bem-sucedida. 

Se nenhuma tupla compatlvel estiver presente, o processo de chamada e suspenso ate que outro processo 
insira a tupla necessaria, quando entao o processo chamador e automaticamente revivido e recebe a nova tupla. O 
fato de os processos bloquearem e desbloquearem automaticamente significa que, se um processo estiver prestes 
a produzir uma tupla e outro estiver prestes a recebe-la, nao importa qual deles vai ocorrer primeiro. 

Alem de out e in, Linda tambem tern uma primitiva read, que e igual a in, exceto que nao retira a tupla do 
espago de tuplas. Tambem ha uma primitiva eval, que faz com que seus parametros sejam avaliados em paralelo 
e a tupla resultante seja depositada no espago de tuplas. Esse mecanismo pode ser usado para efetuar um calculo 
arbitrario. E assim que processos paralelos sao criados em Linda. 

Um paradigma de programagao comum em Linda e o modelo operario replicado. Esse modelo e baseado na 
ideia da sacola de tarefas cheia de jobs por fazer. O processo principal inicia out executando um lago que contem 
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out(“task-bag”, job); 

no qual uma descrigao de job diferente e produzida para o espago de tuplas a cada iteragao. Cada operario comega 
obtendo uma tupla de descrigao de job usando 
in(“task-bag”, ?job); 

que ele entao executa. Quando termina, pega outra. Alem disso, novos trabalhos podem ser colocados na sacola 
de tarefas durante a execugao. Desse modo simples, o trabalho e dividido dinamicamente entre os operarios, e 
cada operario e mantido ocupado o tempo todo, e tudo com relativamente pouca sobrecarga. 

Existem varias implementagoes de Linda em sistemas multicomputadores. Em todas elas, uma questao fun¬ 
damental e como distribuir as tuplas entre as maquinas e como localiza-las quando necessario. Entre as varias 
possibilidades estao broadcasting e diretorios. A replicagao tambem e uma questao importante. Esses pontos sao 
discutidos em Bjornson, 1993. 


• Orca 

Uma abordagem um pouco diferente para a memoria compartilhada no nivel de aplicagao em um multi- 
computador e usar objetos como unidade de compartilhamento, em vez de apenas tuplas. Objetos consistem em 
estado interno (oculto) mais metodos para operar naquele estado. Por nao permitir que o programador acesse 
o estado diretamente, sao abertas muitas possibilidades para permitir o compartilhamento por maquinas que nao 
tern memoria flsica compartilhada. 

O sistema baseado em objetos que da a ilusao de memoria compartilhada em sistemas multicomputadores e 
denominado Orca (Bal, 1991; Bal et al., 1992; e Bal e Tanenbaum, 1988). Orca e uma linguagem de programagao 
tradicional (baseada em Modula 2), a qual foram adicionadas duas novas caracterlsticas: objetos e a capacidade 
de criar novos processos. Um objeto Orca e um tipo de dados abstrato, semelhante a um objeto em Java ou um 
pacote em Ada. Ele encapsula estruturas de dados internas e metodos escritos pelo usuario, denominados opera- 
goes. Objetos sao passivos, isto e, nao contem threads para os quais podem ser enviadas mensagens. Em vez disso, 
processos acessam os dados internos de um objeto invocando seus metodos. 

Cada metodo Orca consiste em uma lista de pares (guarda, bloco de declaragoes). Uma guarda e uma 
expressao booleana que nao contem nenhum efeito colateral, ou a guarda vazia, que e o mesmo que o valor true. 
Quando uma operagao e invocada, todas as suas guardas sao avaliadas em uma ordem nao especificada. Se todas 
elas iorem false, o processo invocador e atrasado ate que uma se torne true. Quando e encontrada uma guarda que 
e avaliada como true, o bloco de declaragoes que vem depois dela e executado. A Figura 8.48 retrata um objeto 
stack com duas operagoes, push e pop. 

Uma vez definida stack, podem-se declarar variaveis desse tipo, como em 

s, t: stack; 

que cria dois objetos stack e inicializa a variavel top em cada um deles como 0. A variavel inteira k pode ser pas- 
sada para a pilha s pela declaragao 

s$push(k); 

e assim por diante. A operagao pop tern uma guarda, portanto, uma tentativa de retirar uma variavel de uma pilha 
vazia suspendera o processo chamador ate que outro processo tenha passado alguma coisa para a pilha. 

Orca tern uma declaragao fork para criar um novo processo em um processador especificado pelo usuario. O 
novo processo executa o procedimento nomeado na declaragao fork. Parametros, incluindo objetos, podem ser 
passados ao novo processo, e e assim que objetos ficam distribuldos entre as maquinas. Por exemplo, a declaragao 

for i in 1 .. n do fork foobar(s) on i; od; 

gera um novo processo em cada uma das maquinas, de 1 a n, executando o programa foobar em cada uma delas. 
A medida que esses n novos processos (e o pai) executam em paralelo, todos eles podem passar itens para a 
pilha compartilhada e retira-los da pilha como se todos eles estivessem executando em um multiprocessador de 
memoria compartilhada. Sustentar a ilusao de memoria compartilhada onde ela realmente nao existe e tarefa do 
sistema de run-time. 
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Figura 8.48 Objeto pilha (stack) ORCA simplificado, com dados internos e duas operates. 

Object implementation stack; 

top:integer; # armazenamento para a pilha 

stack: array [integer 0..N-1] of integer; 

operation push(item: integer); 

begin 

guard top < N - 1 do 

stack[top] := item; 
top := top + 1; 

od; 
end; 

operation pop(): integer; 

begin 

guard top > 0 do 

top := top - 1; 
return stack[top]; 

od; 
end; 

begin 

top := 0; # inicializagao 

end; 


# fungao retornando um inteiro 

# suspenda se a pilha estiver vazia 

# decremente o ponteiro de pilha 

# retorne o item do topo 


# fungao retorna nada 

# passe item para a pilha 

# incremente o ponteiro de pilha 


Operagoes sobre objetos compartilhados sao atomicas e sequencialmente consistentes. O sistema garante 
que, se varios processos efetuarem operagoes no mesmo objeto compartilhado quase de modo simultaneo, o sis¬ 
tema escolhe alguma ordem e todos os processos veem a mesma ordem de eventos. 

Orca integra dados compartilhados e sincronizagao de um modo que nao esta presente em sistemas DSM 
baseados em paginagao. Dois tipos de sincronizagao sao necessarios em programas paralelos. O primeiro tipo e 
sincronizagao por exclusao mutua, para evitar que dois processos executem a mesma regiao crltica ao mesmo 
tempo. Para todos os efeitos, cada operagao sobre um objeto compartilhado em Orca e como uma regiao crltica, 
porque o sistema garante que o resultado final e o mesmo que seria se todas as regioes crlticas fossem executa- 
das uma por vez (isto e, sequencialmente). Nesse aspecto, um objeto Orca e como uma forma distribulda de um 
monitor (Hoare, 1975). 

O outro tipo e a sincronizagao de condigao, na qual um processo bloqueia esperando por alguma condigao 
valida. Em Orca, a sincronizagao de condigao e feita com guardas. No exemplo da Figura 8.48, um processo que 
tente retirar um item de uma pilha vazia sera suspenso ate que a pilha nao esteja mais vazia. Afinal, voce nao pode 
retirar uma palavra de uma pilha vazia. 

O sistema de run-time de Orca trata da replicagao de objeto, migragao, consistencia e invocagao de operagao. 
Cada objeto pode estar em um de dois estados: copia unica ou replicado. Um objeto em estado de copia unica exis- 
te somente em uma maquina, portanto, todas as requisigoes para ele sao enviadas para essa maquina. Um objeto 
replicado esta presente em todas as maquinas que contem um processo que o esta usando, o que facilita as opera- 
goes de leitura (ja que elas podem ser feitas localmente) a custa de encarecer as atualizagoes. Quando e executada 
uma operagao que modifica um objeto replicado, em primeiro lugar ela deve obter um numero de sequencia dado 
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por um processo centralizado que os emite. Entao, e enviada uma mensagem a cada maquina que tem uma copia do 
objeto, dizendo a ela que execute a operagao. Uma vez que todas essas atualizagoes portam numeros de sequencia, 
todas as maquinas executam as operagoes na mesma ordem, o que garante consistencia sequencial. 

8.4.7 Desempenho 

O ponto principal da construgao de um computador paralelo e fazer com que ele execute mais rapido do que 
uma maquina com um unico processador. Se ele nao cumprir esse simples objetivo, nao vale a pena te-lo. Alem disso, 
ele deve cumprir o objetivo de uma maneira eficiente em relagao ao custo. Uma maquina que e duas vezes mais rapida 
do que um uniprocessador a 50 vezes o custo muito provavelmente nao sera um sucesso de vendas. Nesta segao, 
examinaremos algumas das questoes de desempenho associadas a arquiteturas de computadores paralelos. 


• Metrica de hardware 

Do ponto de vista do hardware, a metrica do desempenho que interessa sao as velocidades de CPU e E/S 
e o desempenho da rede de interconexao. As velocidades de CPU e E/S sao as mesmas de um uniprocessador, 
portanto, os parametros fundamentais de interesse em um sistema paralelo sao os associados com dois itens fun- 
damentais: latencia e largura de banda, que agora examinaremos um por vez. 

A latencia de ida e volta e o tempo que leva para a CPU enviar um pacote e obter uma resposta. Se o pacote 
for enviado a uma memoria, entao a latencia mede o tempo que leva para ler ou escrever uma palavra ou bloco 
de palavras. Se ele for enviado a outra CPU, a latencia mede o tempo de comunicagao entre processadores para 
pacotes daquele tamanho. Em geral, a latencia que interessa e a de pacotes mlnimos, muitas vezes uma unica 
palavra ou uma pequena linha de cache. 

A latencia e composta de varios fa tores e e diferente para interconexoes de comutagao de circuitos, armaze- 
namento e repasse (store-and-for ward) , atalho virtual e wormhole roteada. No caso da comutagao de circuitos, a 
latencia e a soma do tempo de estabelecimento com o tempo de transmissao. Para estabelecer um circuito e pre- 
ciso enviar um pacote de sondagem para reservar recursos e entao devolver um relatorio. Tao logo isso acontega, 
o pacote de dados tem de ser montado. Quando o pacote estiver pronto, os bits podem fluir a toda velocidade, 
portanto, se o tempo total de montagem for T , o tamanho do pacote e p bits, e a largura de banda b bits/s, a laten¬ 
cia de uma via e T + pfb. Se o circuito for full duplex , nao ha tempo de estabelecimento para a resposta, portanto, 
a latencia minima para enviar um pacote de p bits e obter uma resposta de p bits e T + 2 p/b s. 

Na comutagao de pacotes nao e necessario enviar antes um pacote de sondagem ao destino, mas ainda ha 
algum tempo interno de estabelecimento para montar o pacote, 7\ Nesse caso, o tempo de transmissao de uma 
via eli pfb , mas isso e apenas o tempo de levar o pacote ate o primeiro switch. Ha um atraso finito dentro do 
switch, por exemplo, T d , e entao o processo e repetido no switch seguinte e assim por diante. O atraso T d e com- 
posto do tempo de processamento mais o atraso de fila a espera da liberagao de uma porta de salda. Se houver n 
switches, entao a latencia total de uma via e dada pela formula T+ n(pfb + Tf) + pfb, cujo termo final se deve a 
copia do ultimo switch ate o destino. 

No melhor caso, as latencias de uma via para atalho virtual e roteamento wormhole estao proximas aT + pfb 
porque nao ha nenhum pacote de sondagem para estabelecer um circuito e nenhum atraso de armazenamento e 
repasse. Basicamente, e o tempo inicial de estabelecimento para montar o pacote, mais o tempo para empurrar 
os bits porta afora. Em todos os casos, e preciso adicionar o atraso de propagagao, mas ele costuma ser pequeno. 

A outra metrica de hardware e a largura de banda. Muitos programas paralelos, em especial em ciencias 
naturais, movimentam grande quantidade de dados de um lado para outro, portanto, o numero de bytes/s que o 
sistema pode mover e crltico para o desempenho. Ha varias metricas para largura de banda. Ja vimos uma delas - 
largura de banda de bissegao. Outra e a largura de banda agregada, que e calculada pela simples adigao das capa- 
cidades de todos os enlaces. Esse numero da o numero maximo de bits que podem estar em transito ao mesmo 
tempo. Ainda outra metrica importante e a largura de banda media na salda da CPU. Se cada CPU for capaz de 



Capitulo 8 • Arquiteturas de computadores paralelos 


511 


produzir 1 MB/s, de pouco adianta a interconexao ter uma largura de bissegao de 100 GB/s. A comunicagao sera 
limitada pela quantidade de dados que cada CPU pode produzir. 

Na pratica, conseguir qualquer coisa que ao menos chegue perto da largura de banda teorica e muito diflcil. 
Muitas fontes de sobrecarga contribuem para reduzir a capacidade. Por exemplo, ha sempre alguma sobrecarga 
por pacote associada a cada pacote: montar o pacote, construir seu cabegalho e manda-lo embora. O envio de 
1.024 pacotes de 4 bytes nunca alcangara a mesma largura de banda que o envio de um unico pacote de 4.096 
bytes. Infelizmente, para conseguir baixas latencias e melhor usar pacotes menores, vis to que os grandes blo- 
queiam as linhas e switches por muito tempo. Assim, ha um conflito inerente entre conseguir baixas latencias 
medias e aha utilizagao de largura de banda. Para algumas aplicagoes, uma delas e mais importante que a outra, e 
para outras aplicagoes pode ser o contrario. Entretanto, vale a pena observar que voce sempre pode comprar mais 
largura de banda (instalando mais fios ou fios mais largos), mas nao pode obter latencias mais baixas. Por isso, em 
geral, e melhor errar para o lado das menores latencias posslveis e se preocupar com largura de banda mais tarde. 


• Metrica de software 

A metrica de hardware, como a latencia e a largura de banda, observa o que o hardware e capaz de fazer. Contudo, 
os usuarios tern uma perspectiva diferente. Eles querem saber o ganho de rapidez na execugao de seus programas em 
um computador paralelo em vez de em um uniprocessador. Para eles, a metrica fundamental e mais velocidade: quan¬ 
to mais depressa um programa executa em um sistema de n processadores em comparagao com um sistema com um 
so processador. Em geral, os resultados sao mostrados em grafos como os da Figura 8.49. Nesse caso, vemos varios 
programas paralelos diferentes que executam em um multicomputador que consiste em 64 CPUs Pentium Pro. Cada 
curva mostra o ganho de velocidade de um programa com k CPUs como uma fungao de k. O ganho de velocidade 
perfeito e indicado pela linha pontilhada na qual usar k CPUs faz o programa funcionar k vezes mais rapido, para 
qualquer k. Poucos programas conseguem o ganho perfeito de velocidade, mas alguns chegam perto. O problema dos 
N corpos consegue um otimo paralelismo; o awari (um jogo de tabuleiro africano) se sai razoavelmente bem, mas 
inverter certa matriz de linha do horizonte nao chega a mais do que cinco vezes a velocidade original, nao importando 
quantas CPUs estejam disponlveis. Os programas e resultados sao discutidos em Bal et al., 1998. 


Figura 8.49 


Programas reais alcancam menos do que o aumento perfeito de velocidade indicado pela linha pontilhada. 
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Parte da razao por que o ganho de velocidade perfeito e quase imposslvel de alcangar e que quase todos os 
programas tem algum componente sequencial, que costuma ser a fase de incializagao, a leitura de dados ou a coleta 
de resultados. Nesse caso, nao adianta ter muitas CPUs. Suponha que um programa execute por T segundos em um 
uniprocessador, sendo que uma fraga of de seu tempo e codigo sequencial e uma fragao (1 -f) tem potencial para 
paralelismo, como mostra a Figura 8.50(a). Se esse ultimo codigo puder executar em n CPUs sem nenhuma sobre- 
carga, seu tempo de execugao pode ser reduzido de (1 -f)T para (1 -f)T/n na melhor das hipoteses, como mostra a 
Figura 8.50(b). Isso da um tempo de execugao total para as partes sequencial e paralela de/T + (1 -f)T/n. O aumento 
de velocidade e apenas o tempo de execugao do programa original, T, dividido pelo novo tempo de execugao: 

Yl 

Aumento de velocidade = - 

1+ (n - l)f 


Figura 8.50 


(a) Um programa tem uma parte sequencial e uma parte que pode utilizar paralelismo. (b) Efeito da execucao de parte do 
programa em paralelo. 
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Para/ = 0, podemos obter aumento de velocidade linear, mas, para/ > 0, o aumento de velocidade perfeito 
nao e posslvel por causa do componente sequencial. Esse resultado e conhecido como lei de Amdahl. 

A lei de Amdahl nao e a unica razao por que o aumento perfeito de velocidade e quase imposslvel de conse- 
guir. Latencias de comunicagao nao zero, larguras de banda de comunicagao finitas e ineficiencias de algoritmos 
tambem podem desempenhar um papel. Alem disso, mesmo que houvesse mil CPUs disponlveis, nem todos os 
programas podem ser escritos para fazer uso de tantas CPUs e a sobrecarga para inicializar todas pode ser signi- 
ficativa. Ademais, muitas vezes o algoritmo mais conhecido nao e bom para ser usado em uma maquina paralela, 
portanto, e preciso usar um algoritmo abaixo do ideal no caso paralelo. Dito isso, ha muitas aplicagoes para as 
quais seria muito desejavel que o programa executasse com velocidade n vezes maior, ainda que para isso pre- 
cisasse de 2n CPUs. Afinal, CPUs nao sao tao caras, e muitas empresas vivem com consideravelmente menos do 
que 100% de eficiencia em outras partes de seus negocios. 


• Obtencao de alto desempenho 

O modo mais direto de melhorar o desempenho e adicionar CPUs ao sistema. Contudo, essa adigao deve ser 
feita de um modo tal que evite a criagao de gargalos. Um sistema no qual se pode adicionar CPUs e obter mais 
capacidade de computagao correspondente e denominado escalavel. 

Para ver algumas implicagoes da escalabilidade, considere quatro CPUs conectadas por um barramento, 
como ilustrado na Figura 8.51(a). Agora, imagine ampliar esse sistema para 16 CPUs adicionando 12, conforme 
mostra a Figura 8.51(b). Se a largura de banda do barramento for b MB/s, entao, com a quadruplicagao do numero 
de CPUs, tambem reduzimos a disponibilidade de largura de banda por CPU de b /4 MB/s para b/16 MB/s. Esse e 
um sistema nao escalavel. 
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Figura 8.51 (a) Sistema de 4 CPUs com um barramento. (b) Sistema de 16 CPUs com urn barramento. (c) Sistema de 4 CPUs em 

grade, (d) Sistema de 16 CPUs em grade. 
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—□ 
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Agora, vamos fazer a mesma coisa com um sistema em grade, conforme mostra a Figura 8.51(c) e a Figura 
8.51(d). Com essa topologia, adicionar novas CPUs tambem adiciona novos enlaces, portanto, ampliar o sistema 
nao provoca a queda da largura de banda agregada por CPU, como acontece com um barramento. Na verdade, a 
razao entre enlaces e CPUs aumenta de 1,0 com 4 CPUs (4 CPUs, 4 enlaces) para 1,5 com 16 CPUs (16 CPUs, 
24 enlaces), portanto, agregar CPUs melhora a largura de banda agregada por CPU. 

Claro que a largura de banda nao e a unica questao. Adicionar CPUs ao barramento nao aumenta o diame- 
tro da rede de interconexao nem a latencia na ausencia de trafego, ao passo que adiciona-las a grade, sim. Para 
uma grade nxn, o diametro e 2(n - 1), portanto, na pior das hipoteses (e na media), a latencia aumenta mais ou 
menos pela raiz quadrada do numero de CPUs. Para 400 CPUs, o diametro e 38, ao passo que para 1.600 CPUs 
e 78, portanto, quadruplicar o numero de CPUs aproximadamente dobra o diametro e, assim, a latencia media. 

O ideal seria que um sistema escalavel mantivesse a mesma largura de banda media por CPU e uma latencia 
media constante a medida que fossem adicionadas CPUs. Contudo, na pratica, e viavel manter suficiente largura 
de banda por CPU, mas, em todos os projetos praticos, a latencia aumenta com o tamanho. Conseguir que ela 
aumente por logaritmo, como em um hipercubo, e quase o melhor que se pode fazer. 

O problema do aumento da latencia a medida que o sistema e ampliado e que a latencia costuma ser fatal 
para o desempenho em aplicagoes de granulagoes fina e media. Se um programa precisar de dados que nao estao 
em sua memoria local, muitas vezes ha uma demora substancial para ir busca-los e, quanto maior o sistema, mais 
longo e o atraso, como acabamos de ver. Esse problema e valido para multiprocessadores, bem como para multi- 
computadores, ja que, em ambos os casos, a memoria flsica e invariavelmente subdividida em modulos dispersos. 

Como consequencia dessa observagao, projetistas de sistemas muitas vezes fazem grandes esforgos para redu- 
zir, ou ao menos ocultar, a latencia, usando diversas tecnicas que mencionaremos agora. A primeira e a replicagao 
de dados. Se for posslvel manter copias de um bloco de dados em varios locais, a velocidade dos acessos a partir 
desses locais pode ser aumentada. Uma dessas tecnicas de replicagao e fazer cache, na qual uma ou mais copias de 
blocos de dados sao mantidas proximas de onde estao sendo usadas, bem como no lugar a que elas “pertencem”. 
Contudo, outra estrategia e manter varias copias pares - copias que tern o mesmo status - em comparagao com o 
relacionamento assimetrico primaria/secundaria usado em cache. Quando sao mantidas varias copias, nao impor- 
tando de que forma, as questoes fundamentais sao: onde sao colocados os blocos de dados, quando e por quern. 
As respostas vao de posicionamento dinamico por demanda pelo hardware a posicionamento intencional na hora 
do carregamento seguindo diretivas do compilador. Em todos os casos, gerenciar a consistencia e uma questao. 

Uma segunda tecnica para ocultar latencias e a busca antecipada. Se um item de dado puder ser buscado 
antes de ser necessario, o processo de busca pode ser sobreposto a execugao normal, de modo que, quando o item 
for necessario, ele ja estara la. A busca antecipada pode ser automatica ou por controle de programa. Quando 
uma cache carrega nao apenas a palavra que esta sendo referenciada, mas uma linha de cache inteira que contem 
a palavra, pode-se apostar que as palavras sucessivas tambem logo serao necessarias. 
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A busca antecipada pode ser controlada explicitamente. Quando o compilador percebe que precisara 
de alguns dados, pode inserir uma instrugao expllcita para busca-los e colocar aquela instrugao com ante- 
cedencia suficiente para que os dados estejam la em tempo. Essa estrategia requer que o compilador tenha 
conhecimento completo da maquina subjacente e de sua temporizagao, bem como controle sobre o local 
onde todos os dados sao colocados. E as instrugoes LOAD especulativas funcionam melhor quando se tern 
certeza de que os dados serao necessarios. Obter uma falta de pagina com uma LOAD para um caminho que, 
afinal, nao e tornado, e muito custoso. 

Uma terceira tecnica e o multithreading, como ja vimos. Se a mudanga entre processos puder ser feita com 
suficiente rapidez, por exemplo, dando a cada um seu proprio mapa de memoria e seus proprios registradores de 
hardware, entao, quando um thread bloqueia por estar esperando a chegada de dados remotos, o hardware pode 
rapidamente mudar para algum outro que pode continuar. No caso-limite, a CPU executa a primeira instrugao do 
thread um, a segunda instrugao do thread dois e assim por diante. Desse modo, pode-se manter a CPU ocupada, 
mesmo em face de longas latencias de memoria para os threads individual. 

Uma quarta tecnica para ocultar latencia e usar escritas sem bloqueio. Em geral, quando e executada uma 
instrugao STORE, a CPU espera ate que a STORE tenha concluldo antes de continuar. Com escritas sem blo¬ 
queio, a operagao de memoria e iniciada, mas o programa continua assim mesmo. E mais diflcil continuar apos 
uma instrugao LOAD, mas com a execugao fora de ordem ate isso e posslvel. 


8.5 Computacao em grade 

Muitos dos desafios atuais na ciencia, engenharia, industria, meio ambiente e outras areas sao de grande 
escala e interdisciplinares. Resolve-los requer a experiencia, as habilidades, conhecimentos, instalagoes, softwares 
e dados de multiplas organizagoes e, muitas vezes, em palses diferentes. Alguns exemplos sao os seguintes: 

1. Cientistas que estao desenvolvendo uma missao para Marte. 

2. Um consorcio para construir um produto complexo (por exemplo, uma represa ou uma aeronave). 

3. Uma equipe de socorro internacional para coordenar o auxllio prestado apos um desastre natural. 

Algumas dessas cooperagoes sao de longo prazo, outras de prazos mais curtos, mas todas compartilham a 
linha comum que e conseguir que organizagoes individuais, com seus proprios recursos e procedimentos, traba- 
lhem juntas para atingir uma meta comum. 

Ate ha pouco tempo, conseguir que organizagoes diferentes, com sistemas operacionais de computador, ban- 
cos de dados e protocolos diferentes, trabalhassem juntas era muito diflcil. Contudo, a crescente necessidade de 
cooperagao interorganizacional em larga escala levou ao desenvolvimento de sistemas e tecnologia para conectar 
computadores muito distantes uns dos outros no que e denominado grade. Em certo sentido, a grade e a etapa 
seguinte ao longo do eixo da Figura 8.1. Ela pode ser considerada um cluster muito grande, internacional, fraca- 
mente acoplado e heterogeneo. 

O objetivo da grade e proporcionar infraestrutura tecnica para permitir que um grupo de organizagoes que 
compartilham uma mesma meta forme uma organizagao virtual. Essa organizagao virtual tern de ser flexlvel, 
com um quadro de associados grande e mutavel, permitindo que seus membros trabalhem juntos em areas que 
consideram apropriadas e, ao mesmo tempo, permitindo que eles mantenham controle sobre seus proprios recur¬ 
sos em qualquer grau que desejarem. Com essa finalidade, pesquisadores de grade estao desenvolvendo servigos, 
ferramentas e protocolos para habilitar o funcionamento dessas organizagoes virtuais. 

A grade e inerentemente multilateral, com muitos participantes de mesmo status. Ela pode ser contras- 
tada com estruturas de computagao existentes. No modelo cliente-servidor, uma transagao envolve duas 
partes: o servidor, que oferece algum servigo, e o cliente, que quer usar o servigo. Um exemplo tlpico e a 
Web, na qual usuarios se dirigem a servidores Web para achar informagoes. A grade tambem e diferente 
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de aplicagoes peer-to-peer, nas quais pares de indivlduos trocam arquivos. O e-mail e um exemplo comum 
dessa aplicagao. Por ser diferente desses modelos, a grade requer novos protocolos e tecnologia. 

A grade precisa ter acesso a uma ampla variedade de recursos. Cada recurso tern um sistema e organizagao 
especlficos aos quais pertence e que decidem quanto desse recurso disponibilizara para a grade, em que horarios 
e para quern. Em um sentido abstrato, a grade trata de acesso e gerenciamento de recursos. 

Um modo de modelar a grade e a hierarquia em camadas da Figura 8.52. A camada-base na parte mais baixa 
e o conjunto de componentes com o qual a grade e construlda. Inclui CPUs, discos, redes e sensores do lado do 
hardware, e programas e dados do lado do software. Esses sao os recursos que a grade disponibiliza de um modo 
controlado. 


Figura 8.52 Camadas da grade. 



Em um nlvel acima esta a camada de recursos, que se preocupa com o gerenciamento de recursos individuais. 
Em muitos casos, um recurso que participa de uma grade tern um processo local que gerencia esse recurso e permite 
acesso controlado a ele por usuarios remotos. Essa camada proporciona uma interface uniforme para que camadas 
mais altas possam inquirir as caracterlsticas e status de recursos individuais, monitorando esses recursos e os utili- 
zando de modo seguro. 

Em seguida, vem a camada coletiva, que manuseia grupos de recursos. Uma de suas fungoes e a descoberta 
de recursos, pela qual um usuario pode localizar ciclos de CPU disponlveis, espago em disco ou dados especlficos. 
A camada coletiva pode manter diretorios ou outros bancos de dados para fornecer essas informagoes. Tambem 
pode oferecer um servigo de corretagem, pelo qual os provedores e usuarios de servigos sao compatibilizados, 
possivelmente proporcionando alocagao de recursos escassos entre usuarios concorrentes. A camada coletiva 
tambem e responsavel por replicar dados, gerenciar admissao de novos membros e recursos, pela contabilidade e 
pela manutengao das pollticas de bancos de dados sobre quern pode usar o que. 

Ainda mais acima esta a camada de aplicagao, onde residem as aplicagoes do usuario. Ela usa as camadas 
mais baixas para adquirir credenciais que provam seu direito de usar certos recursos, apresentar requisigoes de 
utilizagao, monitorar o andamento dessas requisigoes, lidar com falhas e notificar o usuario dos resultados. 

Seguranga e fundamental para uma grade bem-sucedida. Os proprietaries dos recursos quase sempre insis- 
tem em manter rlgido controle e querem determinar quern vai usa-los, por quanto tempo, e o quanto. Sem boa 
seguranga, nenhuma organizagao disponibilizaria seus recursos a grade. Por outro lado, se um usuario fosse 
obrigado a ter uma conta de login e uma senha para todo computador que quisesse usar, a utilizagao da grade 
seria insuportavelmente trabalhosa. Por conseguinte, a grade teve de desenvolver um modelo de seguranga para 
tratar dessas preocupagoes. 

Uma das principais caracterlsticas do modelo de seguranga e a assinatura unica. A primeira etapa para um usua¬ 
rio utilizar a grade e ser autenticado e adquirir uma credencial, um documento assinado digitalmente que especifica 
em nome de quern o trabalho deve ser realizado. Credenciais podem ser delegadas, de modo que, quando uma 
computagao precisa criar subcomputagoes, os processos-filhos tambem podem ser identificados. Quando uma 
credencial e apresentada a uma maquina remota, ela tern de ser mapeada para o mecanismo local de seguranga. 
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Em sistemas UNIX, por exemplo, usuarios sao identificados por IDs de usuarios de 16 bits, mas outros sistemas 
tern outros esquemas. Por fim, a grade precisa de mecanismos para permitir que pollticas de acesso sejam decla- 
radas, mantidas e atualizadas. 

Para proporcionar interoperabilidade entre diferentes organizagoes e maquinas sao necessarios padroes, 
tan to em termos dos servigos oferecidos, quanto dos protocolos usados para acessa-los. A comunidade das grades 
criou uma organizagao, a Global Grid Forum, para gerenciar o processo de padronizagao. Ela criou uma estrutura 
denominada OGSA (Open Grid Services Architecture - arquitetura de servigos de grade aberta) para posicio- 
nar os varios padroes e seu desenvolvimento. Sempre que posslvel, os padroes utilizam padroes ja existentes, 
por exemplo, o WSDL (Web Services Definition Language - linguagem para definigao de servigos Web), para 
descrever servigos OGSA. Os servigos que estao atualmente em fase de padronizagao pertencem a oito categorias 
gerais, como descrevemos a seguir, mas novas categorias serao criadas mais tarde. 

1. Servigos de infraestrutura (habilitar comunicagao entre recursos). 

2. Servigos de gerenciamento de recursos (reserva e distribuigao de recursos). 

3. Servigos de dados (mover e replicar dados para onde forem necessarios). 

4. Servigos de contexto (descrever recursos necessarios e pollticas de utilizagao). 

5. Servigos de informagao (obter informagoes sobre disponibilidade de recursos). 

6. Servigos de autogerenciamento (suportar uma qualidade de servigo declarada). 

7. Servigos de seguranga (impor pollticas de seguranga). 

8. Servigos de gerenciamento de execugao (gerenciar fluxo de trabalho). 


Ha muito mais que poderia ser dito sobre a grade, mas limitagoes de espago nos impedem de estender mais 
esse topico. Se o leitor quiser mais informagoes sobre a grade, pode consultar Abramson, 2011; Balasangameshwara 
e Raju, 2012; Celaya e Arronategui, 2011; Foster e Kesselman, 2003; e Lee et al., 2011. 


8.6 Resumo 

Esta ficando cada vez mais diflcil conseguir que os computadores funcionem com mais rapidez apenas 
aumentando a velocidade de clock por causa de problemas como maior dissipagao de calor e outros fa tores. Em 
vez disso, os projetistas estao buscando o paralelismo para conseguir ganhos de velocidade. O paralelismo pode 
ser introduzido em muitos nlveis diferentes, desde o muito baixo, onde os elementos de processamento sao muito 
fortemente acoplados, ate o muito alto, onde eles sao muito fracamente acoplados. 

No nivel baixo esta o paralelismo no chip, no qual atividades paralelas ocorrem em um unico chip. Uma 
forma e o paralelismo no nivel da instrugao, no qual uma instrugao, ou uma sequencia delas, emite diversas ope- 
ragoes que podem ser executadas em paralelo por diferentes unidades funcionais. Uma segunda forma de parale¬ 
lismo no chip e multithreading , no qual a CPU pode cornu tar como quiser entre multiplos threads , instrugao por 
instrugao, criando um multiprocessador virtual. Uma terceira forma e o multiprocessador de chip unico no qual 
dois ou mais nucleos sao colocados no mesmo chip para permitir que executem ao mesmo tempo. 

Em um nivel acima encontramos os coprocessadores, em geral placas de expansao que agregam capacidade 
de processamento extra em alguma area especializada, como processamento de protocolos de rede ou multimldia. 
Esses processadores extras aliviam o trabalho da CPU principal, permitindo que ela faga outras coisas enquanto 
eles estao realizando suas tarefas especializadas. 

No proximo nivel encontramos os multiprocessadores de memoria compartilhada. Os sistemas contem duas 
ou mais CPUs totalmente desenvolvidas, que compartilham uma memoria em comum. Multiprocessadores UMA 
se comunicam por meio de um barramento compartilhado (de escuta), um switch crossbar ou uma rede de comu- 
tagao multiestagios. Eles sao caracterizados por terem um tempo de acesso uniforme a todos os locais de memoria. 
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Por comparagao, multiprocessadores NUMA tambem apresentam todos os processos com o mesmo espago de 
enderego compartilhado, mas, nesse caso, os acessos remotos levam um tempo bem mais longo do que os locais. 
Por fim, multiprocessadores COMA sao mais uma variagao na qual linhas de cache sao movidas sob demanda um 
lado para outro da maquina, mas nao tern uma residency real como em outros projetos. 

Multicomputadores sao sistemas com muitas CPUs que nao compartilham uma memoria em comum. Cada 
uma tern sua propria memoria privada, com comunicagao por troca de mensagens. MPPs sao multicomputadores 
grandes com redes de comunicagao especializadas como o BlueGene/P da IBM. Clusters sao sistemas mais simples, 
que usam componentes de prateleira, como o sistema que sustenta o Google. 

Multicomputadores costumam ser programados usando um pacote de troca de mensagens como MPI. Uma 
abordagem alternativa e usar memoria compartilhada no nivel da aplicagao, como um sistema DSM baseado em 
paginas, o espago de tuplas Linda, ou objetos Orca ou Globe. DSM Simula memoria compartilhada no nivel de 
pagina, o que o torna semelhante a uma maquina NUMA, exceto pela penalidade maior para referencias remotas. 

Por fim, no nivel mais alto e mais fracamente acoplado, estao as grades. Sao sistemas nos quais organizagoes 
inteiras sao reunidas e interligadas pela Internet para compartilhar capacidade de processamento, dados e outros 
recursos. 


Problemas 


1. Instrugoes da arquitetura Intel x86 podem ter com- 
primentos de ate 17 bytes. O x86 e uma CPU VLIW? 

2. Como a tecnologia de projeto de processos permite que 
os engenheiros coloquem cada vez mais transistores em 
um chip, Intel e AMD escolheram aumentar o numero 
de nucleos em cada chip. Existem outras opgoes viaveis 
que eles poderiam ter usado em vez disso? 

3. Quais sao os valores grampeados de 96, -9, 300 e 256 
quando a faixa de grampeamento e 0-255? 

4. As seguintes instrugoes TriMedia sao permitidas? Se 
nao forem, qual a razao? 

a. Adigao de inteiros, subtragao de inteiros, carga, 
adigao de ponto flutuante, carga imediata. 

b. Subtragao de inteiros, multiplicagao de inteiros, 
carga imediata, deslocamento, deslocamento. 

c. Carga imediata, adigao de ponto flutuante, multi¬ 
plicagao de ponto flutuante, desvio, carga imediata. 

5. A Figura 8.7(d) e (e) mostra 12 ciclos de instrugoes. 
Para cada um, diga o que acontece nos tres ciclos 
seguintes. 

6. Em uma determinada CPU, uma instrugao que encon- 
tra uma ausencia da cache de nivel 1, mas uma pre- 
senga na cache de nivel 2, leva k ciclos no total. Se for 
usado multithreading para mascarar ausencias da cache 
de nivel 1, quantos threads precisam ser executados ao 
mesmo tempo usando multithreading de granulagao 
fina para evitar ciclos ociosos? 

7. A GPU Fermi NVIDIA e semelhante em espirito a uma 
das arquiteturas que estudamos no Capitulo 2. Qual? 


8. Uma bela manha, a abelha-rainha de certa colmeia con- 
voca todas as suas abelhas operarias e lhes comunica 
que a tarefa daquele dia e colher nectar de rosas. Entao, 
as operarias saem voando em busca de rosas. Esse e 
um sistema SIMD ou um sistema MIMD? 

9. Durante nossa discussao sobre modelos de consis¬ 
tency de memoria, dissemos que um modelo de 
consistency e um tipo de contrato entre o software e 
a memoria. Por que tal contrato e necessario? 

10. Considere um multiprocessador que usa um bar- 
ramento compartilhado. O que acontece se dois 
processadores tentarem acessar a memoria global 
exatamente no mesmo instante? 

11. Considere um multiprocessador que usa um bar- 
ramento compartilhado. O que acontece se tres 
processadores tentarem acessar a memoria global 
exatamente no mesmo instante? 

12. Suponha que, por razoes tecnicas, uma cache de 
escuta so pode escutar linhas de enderego, e nao 
linhas de dados. Essa alteragao afetaria o protocolo 
de escrita direta? 

13. Como um modelo simples de um sistema multipro¬ 
cessador com barramento, sem cache , suponha que 
uma instrugao em cada quatro referencia a memoria, 
e que uma referencia a memoria ocupa o barramento 
durante um tempo de instrugao inteiro. Se o barra¬ 
mento estiver ocupado, a CPU requisitante e coloca- 
da em uma fila FIFO. Qual sera a diferenga entre a 
velocidade de execugao de um sistema com 64 CPUs 
e um sistema com uma CPU? 
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14. O protocolo de coerencia de cache MESI tem quatro esta- 
dos. Outros protocolos de coerencia de cache de escrita 
retroativa tem somente tres. Qual dos quatro estados 
MESI poderia ser sacrificado e quais seriam as con- 
sequencias de cada escolha? Se voce tivesse de optar 
por apenas tres estados, quais escolheria? 

15. Usando protocolo de coerencia de cache MESI, ha 
alguma situagao na qual uma linha de cache esta 
presente na cache local, mas para a qual ainda assim 
e necessaria uma transagao de barramento? Caso a 
resposta seja positiva, explique. 

16. Suponha que haja n CPUs em um barramento 
comum. A probabilidade de qualquer uma das CPUs 
tentar usar o barramento em um dado ciclo e p. Qual 
e a chance de: 

a. O barramento estar ocioso (0 requisigoes)? 

b. Ser feita exatamente uma requisigao? 

c. Ser feita mais de uma requisigao? 

17. Cite a principal vantagem e a principal desvantagem 
de um switch crossbar. 

18. Quantos switches crossbar tem um Sun Fire E25K 
completo? 

19. Suponha que o fio entre o switch 2 A e o switch 3B na 
rede omega da Figura 8.31 se rompa. Quern e desco- 
nectado de quern? 

20. Hot spots (locais de memoria que recebem grandes 
quantidades de references) sao claramente um gran¬ 
de problema em redes de comutagao multiestagio. 
Tambem sao um problema em sistemas baseados em 
barramento? 

21. Uma rede de comutagao omega conecta 4.096 CPUs 
RISC, cada qual com um tempo de ciclo de 60 ns, a 
4.096 modulos de memoria infinitamente rapidos. 
Cada um dos elementos de comutagao tem um atraso 
de 5 ns. Quantas posigoes de atraso sao necessarias 
para uma instrugao LOAD? 

22. Considere uma maquina que usa uma rede de 
comutagao omega, como a mostrada na Figura 8.31. 
Suponha que o programa e a pilha para o proces- 
sador i sejam mantidos no modulo de memoria i. 
Proponha uma ligeira alteragao na topologia que faga 
uma grande diferenga no desempenho (o IBM RP3 
e o BBN Butterfly usam essa topologia modificada). 
Qual e a desvantagem dessa sua nova topologia em 
comparagao com a original? 

23. Em um multiprocessador NUMA, references a memo¬ 
ria local levam 20 ns e references remotas levam 
120 ns. Certo programa faz um total de N references 
a memoria durante sua execugao, das quais 1% e para 
uma pagina P. No inicio, essa pagina e remota, e 


copia-la localmente leva C ns. Em quais condigoes 
a pagina deveria ser copiada localmente na ausencia 
de utilizagao significativa por outros processadores? 

24. Considere um multiprocessador CC-NUMA como o 
da Figura 8.33, porem com 512 nos de 8 MB cada. 
Se as linhas de cache tem 64 bytes, qual e a porcen- 
tagem de sobrecarga para os diretorios? Aumentar o 
numero de nos aumenta a sobrecarga, reduz a sobre¬ 
carga ou nao provoca nenhuma alteragao? 

25. Qual e a diferenga entre NC-NUMA e CC-NUMA? 

26. Calcule o diametro da rede para cada topologia mos¬ 
trada na Figura 8.37. 

27. Para cada topologia mostrada na Figura 8.37, deter¬ 
mine o grau de tolerancia a falha, definida como o 
numero maximo de enlaces que podem ser perdidos 
sem repartir a rede em duas. 

28. Considere a topologia de toro duplo da Figura 8.37(0, 
mas expandida para um tamanho k x k. Qual e o 
diametro da rede? ( Dica: considere k hnpar e k par 
separadamente.) 

29. Uma rede de interconexao tem a forma de um cubo 
8x8x8. Cada enlace tem uma largura de banda 
full duplex de 1 GB/s. Qual e a largura de banda de 
bissegao da rede? 

30. A lei de Amdahl limita o aumento potencial de velo- 
cidade que se pode conseguir em um computador 
paralelo. Calcule, como uma fungao de/, o aumento 
maximo de velocidade possivel quando o numero de 
CPUs se aproximar de infinito. Quais sao as implica- 
goes desse limite para / =0,1? 

31. A Figura 8.51 mostra como a ampbagao falha com 
um barramento, mas e bem-sucedida com uma grade. 
Considerando que cada barramento ou enlace tem 
uma largura de banda b , calcule a largura de banda 
media por CPU para cada um dos quatro casos. 
Entao, amplie cada sistema para 64 CPUs e repita os 
calculos. Qual e o limite a medida que o numero de 
CPUs tende ao infinito? 

32. No texto, foram discutidas tres variagoes de send: 
sincrona, com bloqueio e sem bloqueio. Cite um 
quarto metodo que seja semelhante a send com blo¬ 
queio, mas tenha propriedades ligeiramente diferen- 
tes. Cite uma vantagem e uma desvantagem de seu 
metodo em comparagao com a send com bloqueio. 

33. Considere um multicomputador que esta executando 
em uma rede com hardware de broadcasting, como 
a Ethernet. Por que e importante a razao entre ope- 
ragoes de leitura (as que nao atualizam variaveis de 
estado interno) e operagoes de escrita (as que atuali- 
zam variaveis de estado interno)? 
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Numeros binarios 


A aritmetica usada por computadores e um pouco diferente daquela utilizada pelas pessoas. A diferenga 
mais importante e que computadores realizam operagoes com numeros cuja precisao e finita e fixa. Outra 
diferenga e que a maioria dos computadores usa o sistema binario e nao o decimal para representar nume¬ 
ros. Esses topicos sao o assunto deste apendice. 


A.1 Numeros de precisao finita 

Quando estamos efetuando aritmetica, em geral, nem pensamos na questao de quantos dlgitos decimais sao 
necessarios para representar um numero. Os fisicos podem calcular que existem 10 78 eletrons no universo sem se 
preocupar com o fa to de que sao necessarios 79 dlgitos decimais para escrever esse numero por extenso. Alguem 
calculando o valor de uma fungao com lapis e papel e que precisa da resposta com ate seis dlgitos significativos 
simplesmente man tern resultados intermediarios ate sete dlgitos, oito ou quantos forem necessarios. Nunca surge 
o problema do papel nao ser grande o bastante para numeros de sete dlgitos. 

Com computadores, as coisas sao bem diferentes. Na maioria deles, a quantidade de memoria disponlvel 
para armazenar um numero e fixada no momento em que o equipamento e projetado. Com algum esforgo, o 
programador pode representar numeros duas, tres ou ate muitas vezes maiores do que essa quantidade fixa, mas 
isso nao mu da a essentia da dificuldade. A natureza finita do computador nos forga a lidar somente com valores 
que podem ser representados em um numero fixo de dlgitos. Estes sao chamados numeros de precisao finita. 
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Para estudar as propriedades dos numeros de precisao finita, vamos examinar o conjunto de inteiros positi¬ 
ves que podem ser representados por tres digitos decimais, sem qualquer ponto decimal ou sinal. Esse conjunto 
tem exatamente 1.000 membros: 000, 001, 002, 003, ..., 999. Com essa restrigao, e imposslvel expressar certos 
tipos de numeros, como 


1. Numeros maiores que 999. 

2. Numeros negativos. 

3. Fragoes. 

4. Numeros irracionais. 

5. Numeros complexos. 

Uma propriedade importante da aritmetica no conjunto de todos os inteiros refere-se ao fechamento com 
respeito as operagoes de adigao, subtragao e multiplicagao. Em outras palavras, para cada par de inteiros i e j, i + 
j, i-jeixj tambem sao inteiros. O conjunto de inteiros nao e fechado quanto a divisao, porque existem valores 
de i e j para os quais i/j nao pode ser expresso como um inteiro (por exemplo, 7/2 e 1/0). 


Numeros de precisao finita nao sao fechados em relagao a nenhuma dessas quatro operagoes basicas, como 
mostramos a seguir, usando numeros decimais de tres digitos como exemplo: 

600 + 600 = 1.200 (muito grande) 

003 - 005 = -2 (negativo) 

050 x 050 = 2.500 (muito grande) 

007 / 002 = 3,5 (nao e um inteiro) 

As violagoes podem ser divididas em duas classes mutuamente exclusivas: operagoes cujo resultado e maior 
que o maior numero no conjunto (erro de excesso) ou menor que o menor numero no conjunto (erro de falta) 
e operagoes cujo resultado nao e muito grande nem muito pequeno, mas apenas nao e um membro do conjunto. 
Das quatro violagoes citadas, as tres primeiras sao exemplos da violagao pelo primeiro motivo, e a quarta e um 
exemplo de violagao pelo segundo motivo. 


Como computadores tem memorias finitas e, portanto, devem necessariamente realizar aritmetica com 
numeros de precisao finita, os resultados de certos calculos serao, do ponto de vista da matematica classica, erra- 
dos. Um dispositivo de calculo que da a resposta errada, embora esteja em perfeitas condigoes de funcionamento, 
pode parecer estranho de inlcio, mas o erro e uma consequencia logica de sua natureza finita. Alguns computa¬ 
dores tem hardware especial que detecta erros de excesso. 

A algebra de numeros de precisao finita e diferente da algebra normal. Como exemplo, considere a lei asso¬ 
ciativa: 


a + (b - c) = (a + b) - c 

Vamos avaliar ambos os lados para a = 700, b = 400, c = 300. Para calcular o lado esquerdo, primeiro cal- 
cule (b - c), que e 100, e depois some esse valor a a, resultando em 800. Para resolver o lado direito, primeiro 
calcule (a + b), que resulta em um excesso na aritmetica finita de inteiros com tres digitos. O resultado pode 
depender da maquina que esta sendo usada, mas nao sera 1.100. Subtrair 300 de algum numero que nao seja 
1.100 nao vai resultar em 800. A lei associativa nao vale. A ordem das operagoes e importante. 

Como outro exemplo, considere a lei distributiva: 

ax (b-c) = axb-axc 

Vamos avaliar os dois lados para a = 5,b = 210,c = 195. O lado esquerdo e 5 x 15, que resulta em 75. O lado 
direito nao e 75, pois ax b estoura. 
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A julgar por esses exemplos, pode-se concluir que embora os computadores sejam dispositivos de uso geral, 
sua natureza finita os torna especialmente inadequados para efetuar aritmetica. Essa conclusao, claro, nao e ver- 
dadeira, mas serve para ilustrar a importancia de saber como as maquinas funcionam e quais sao suas limitagoes. 


A.2 Sistemas de numeros raiz, ou numeros de base 

Um numero decimal comum, com o qual todos estamos acostumados, consiste em uma sequencia de dlgitos 
decimals e, possivelmente, um ponto decimal (vlrgula aritmetica). A forma geral e sua interpretagao normal sao 
mostradas na Figura A.l. Escolhemos 10 como a base para exponenciagao, denominada a raiz ou base, porque 
estamos usando numeros decimals, ou de base 10. Quando se trata de computadores, muitas vezes e conveniente 
usar outras bases que nao sejam 10. As bases mais importantes sao 2, 8 e 16. Os sistemas de numeros baseados 
nessas bases, ou raizes, sao chamados binarios, octais e hexadecimais. 


Figura A.1 


A forma geral de um numero decimal. 



Posigao 

Posigao 

Posigao 

Posigao 

Posigao 

Posigao 


de 100 

de 10 

de 1 

de 0,1 

de 0,01 

de 0,001 

d n 

d 2 

di 

do 

d_i 

d-2 

d- 3 


n 

Numero = ^ dj x 10' 
i = -k 


Um sistema numerico de base k requer k slmbolos diferentes para representar os dlgitos de 0 a k - 1. 
Numeros decimais sao formados a partir de 10 dlgitos decimais 

0123456789 

Por comparagao, numeros binarios nao usam esses dez dlgitos. Eles sao todos construldos exclusivamente a partir 
dos dois dlgitos binarios 

0 1 

Numeros octais sao formados a partir dos oito dlgitos octais 
01234567 

Para numeros hexadecimais, 16 dlgitos sao necessarios. Assim, precisamos de seis novos slmbolos. Por conven- 
gao, usamos as letras maiusculas de A a F para os seis dlgitos depois do 9. Os numeros hexadecimais sao, entao, 
formados a partir dos dlgitos 

0123456789ABCDEF 

A expressao “dlgito binario” significando um 1 ou um 0 em geral e denominada bit. A Figura A.2 mostra o 
numero decimal 2.001 expresso nos formatos binario, octal, decimal e hexadecimal. O numero 7B9 obviamente 
e decimal, pois o slmbolo B so pode ocorrer em numeros hexadecimais. Porem, o numero 111 poderia estar em 
qualquer um dos quatro sistemas numericos discutidos. Para evitar ambiguidade, costuma-se usar um subscrito 
2, 8, 10 ou 16 para indicar a raiz quando ela nao for obvia pelo proprio contexto. 
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Figura A.2 0 numero 2.001 nos sistemas binario, octal, decimal e hexadecimal. 

Binario 1 1 1 1 1 0 1 0 0 0 1 

1 x 2 10 + 1 x 2 9 + 1 x 2 8 + 1 x 2 7 + 1 x 2 6 + 0 x 2 5 + 1 x 2 4 + 0 x 2 3 + 0 x 2 2 + 0 x 2 1 + 1 x 2° 

1024 + 512 + 256 + 128 + 64 + 0 +16 + 0 + 0 + 0 +1 

Octal 3 7 2 1 

3 x8 3 + 7 x8 2 + 2 X8 1 + 1 x8° 

1536 + 448 + 16+1 

Decimal 2 0 0 1 

2 x 10 3 + 0 x 10 2 + 0 x 10 1 + 1 x 10° 

2000 +0 + 0 +1 

Hexadecimal 7 D 1 

7 x 16 2 + 13 x 16 1 + 1 x 16° 

1792 + 208 +1 


Como exemplo das notagoes binaria, octal, decimal e hexadecimal, considere a Figura A.3, que mostra uma 
colegao de inteiros nao negativos expressos em cada um desses quatro sistemas diferentes. Talvez algum arqueologo 
daqui a milhares de anos descubra essa tabela e a considere a Pedra de Roseta dos sistemas numericos do final do 
seculo XX e inlcio do seculo XXI. 


Figura A.3 


Numeros decimals e seus equivalentes binarios, octais e hexadecimais. 
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A.3 Conversao de uma base para outra 

A conversao de numeros octais ou hexadecimais para numeros binarios e facil. Para converter um numero 
binario para octal, divida-o em grupos de 3 bits, com os 3 bits imediatamente a esquerda (ou a direita) do ponto 
decimal (muitas vezes denominado ponto binario ou vlrgula aritmetica) formando um grupo, os 3 bits imedia¬ 
tamente a sua esquerda outro grupo e assim por diante. Cada grupo de 3 bits pode ser convertido diretamente 
para um unico dlgito octal, de 0 a 7, de acordo com a conversao dada nas primeiras linhas da Figura A.3. Pode 
ser preciso acrescentar um ou dois zeros a esquerda ou a direita para preencher um grupo e completar 3 bits. A 
conversao de octal para binario e igualmente trivial. Cada dlgito octal e apenas substituldo pelo numero bina¬ 
rio equivalente de 3 bits. A conversao de hexadecimal para binario e, na essencia, a mesma que a de octal para 
binario, exceto que cada dlgito hexadecimal corresponde a um grupo de 4 bits em vez de 3 bits. A Figura A.4 da 
alguns exemplos de conversoes. 


Figura A.4 


Exemplos de conversao octal para binario e hexadecimal para binario. 


Exemplo 1 

Hexadecimal 

Binario 

Octal 


1 


8 


0001 100101001000 
14 5 10 



Exemplo 2 

Hexadecimal 

Binario 

Octal 


B 


A 


B 


0111101110100011.101111000100 
75643.5 704 


A conversao de numeros decimals para binarios pode ser feita de duas maneiras diferentes. O primeiro meto- 
do resulta diretamente da definigao dos numeros binarios. A maior potencia de 2 menor que o numero e subtralda 
deste. Entao, o processo e repetido na diferenga. Quando o numero tiver sido decomposto em potencias de 2, 
o numero binario podera ser montado com Is nas posigoes de bit correspondentes as potencias de 2 usadas na 
decomposigao e 0s em outros lugares. 

O outro metodo (so para inteiros) consiste em dividir o numero por 2. O quociente e escrito diretamente 
abaixo do numero original e o resto, 0 ou 1, e escrito ao lado do quociente. Entao, considera-se o quociente e o 
processo e repetido ate chegar ao numero 0. O resultado desse processo sera duas colunas de numeros, os quo- 
cientes e os restos. O numero binario agora pode ser lido diretamente na coluna do resto, comegando por baixo. 
A Figura A.5 contem um exemplo de conversao de decimal para binario. 

Inteiros binarios tambem podem ser convertidos para decimal de duas maneiras. Um metodo consiste em 
somar as potencias de 2 correspondentes aos bits 1 no numero. Por exemplo, 

10110 = 2 4 + 2 2 + 2 1 = 16 + 4 + 2 = 22 
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Figura A.5 


Conversao do numero decimal 1.492 para binario com divisoes sucessivas por 2, comecando no topo e prosseguindo para 
baixo. Por exemplo, 93 dividido por 2 da urn quociente de 46 e urn resto de 1, escrito na linha abaixo dele. 


Quocientes Restos 


1492 
746 
3 73 
1 86 
93 
46 
23 
1 1 
5 
2 
1 
0 



No outro metodo, o numero binario e escrito verticalmente, um bit por linha, com o bit da extrema esquerda 
embaixo. A linha de baixo e denominada linha 1, a linha acima dela, linha 2, e assim por diante. O numero decimal 
sera montado em uma coluna paralela ao lado do numero binario. Comece escrevendo 1 na linha 1. A entrada na 
linha n consiste em duas vezes a entrada na linha n - 1, mais o bit na linha n (seja 0 ou 1). A entrada na linha de 
cima e a resposta. A Figura A.6 contem um exemplo desse metodo de conversao de numero binario para decimal. 

A conversao de decimal para octal e de decimal para hexadecimal pode ser realizada primeiro convertendo 
para binario e depois para o sistema desejado, ou subtraindo potencias de 8 ou 16. 


Figura A.6 Conversao do numero binario 101110110111 para decimal com multiplicacoes sucessivas por 2, iniciando embaixo. Cada 
linha e formada multiplicando-se por 2 a que esta abaixo dela e somando o bit correspondente. Por exemplo, 749 e duas 
vezes 374 mais o bit 1 na mesma linha que 749. 


1110 110 111 


1+2 
1+2 
1+2 
0 + 2 
1+2 
1+2 
0 + 2 
1+2 
1+2 
1+2 
0 + 2 
1+2 


x 1499 = 2999 - 

\ 

x 749 =1499 
\ 

x 374 = 749 
\ 

x 187 = 374 
\ 

x 93 = 187 
\ 

x 46 = 93 
\ 

x 23 = 46 
\ 

x 11 = 23 

x 5 =\l 
\ 

x 2 = 5 

x1^2 

\ 

x 0 =1- 


- Resultado 


- Inicie aqui 
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A.4 Numeros binarios negativos 

Quatro sistemas diferentes para representar numeros negativos ja foram usados em computadores digitais 
em uma epoca ou outra da historia. O primeiro e conhecido como magnitude com sinal. Nesse sistema, o bit da 
extrema esquerda e o bit de sinal (0 e + e 1 e -) e os restantes contem a magnitude absoluta do numero. 

O segundo sistema, denominado complemento de um, tambem tern um bit de sinal, que e 0 para mais e 1 
para menos. Para tornar um numero negativo, substitua cada 1 por 0 e cada 0 por 1. Isso vale tambem para o bit 
de sinal. O complemento de 1 e obsoleto. 

O terceiro sistema, chamado complemento de dois, tambem tern um bit de sinal que e 0 para mais e 1 para 
menos. Negar um numero e um processo em duas etapas. Na primeira, cada 1 e substituldo por um 0 e cada 0 
por um 1, assim como no complemento de um. Na segunda, 1 e somado ao resultado. A adigao binaria e a mesma 
que a adigao decimal, exceto que um vai-um e gerado se a soma for maior do que 1 em vez de maior do que 9. 
Por exemplo, a conversao de 6 para complemento de dois tern duas etapas: 

00000110 (+ 6 ) 

11111001 (-6 em complemento de um) 

11111010 (-6 em complemento de dois) 

Se ocorrer um vai-um no bit da extrema esquerda, ele e descartado. 

O quarto sistema, que e chamado excesso 2 m_1 para numeros de m bits, representa um numero armazenando-o 
como a soma dele mesmo com 2 m_1 . Por exemplo, para numeros de 8 bits, m = 8, o sistema e denominado excesso 
128 e um numero e armazenado como seu verdadeiro valor mais 128. Portanto, -3 se torna -3 + 128 = 125, e -3 
e representado pelo numero binario de 8 bits para 125 (01111101). Os numeros de -128 a +127 mapeiam para 
0 a 255, todos os quais podem ser expressos como um inteiro positivo de 8 bits. O interessante e que esse siste¬ 
ma e identico ao complemento de dois com o bit de sinal invertido. A Figura A. 7 contem exemplos de numeros 
negativos em todos os quatro sistemas. 


Figura A.7 Numeros negativos de 8 bits em quatro sistemas. 


N 

decimal 

N 

binaria 

-N 

magnitude 
com sinal 

-N 

complemento 
de 1 

-N 

complemento 
de 2 

-N 
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11111100 

01111100 

5 

00000101 

10000101 

11111010 

11111011 

01111011 

6 

00000110 

10000110 

11111001 

11111010 

01111010 

7 

00000111 

10000111 

11111000 

11111001 

01111001 

8 

00001000 

10001000 

11110111 

11111000 

01111000 

9 

00001001 

10001001 

11110110 

11110111 

01110111 

10 

00001010 

10001010 

11110101 

11110110 

01110110 

20 

00010100 

10010100 

11101011 

11101100 

01101100 

30 

00011110 

10011110 

11100001 

11100010 

01100010 

40 

00101000 

10101000 

11010111 

11011000 

01011000 

50 

00110010 

10110010 

11001101 

11001110 

01001110 

60 

00111100 

10111100 

11000011 

11000100 

01000100 

70 

01000110 

11000110 

10111001 

10111010 

00111010 

80 

01010000 

11010000 

10101111 

10110000 

00110000 

90 

01011010 

11011010 

10100101 

10100110 

00100110 

100 

01100100 

11100100 

10011011 

10011100 

00011100 

127 

01111111 

11111111 

10000000 

10000001 

00000001 

128 

Nao existe 

Nao existe 

Nao existe 

10000000 

00000000 
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Magnitude com sinal, bem como complemento de um, tem duas represen tagoes para zero: mais zero e menos 
zero. Essa situagao e indesejavel. O sistema de complemento de dois nao tem esse problema porque o complemento 
de dois de mais zero tambem e mais zero. Contudo, o sistema de complemento de dois tem uma singularidade dife- 
rente. O padrao de bit que consiste em 1 seguido por Os e seu proprio complemento. O resultado disso e que as faixas 
de numeros positivos e negativos ficam nao simetricas; ha um numero negativo sem nenhuma contraparte positiva. 

A razao para esses problemas nao e diflcil de achar: queremos um sistema de codificagao com duas propriedades: 

1. Somente uma representagao para zero. 

2. Exatamente a mesma quantidade de numeros positivos e negativos. 

O problema e que qualquer conjunto de numeros com a mesma quantidade de numeros positivos e nume¬ 
ros negativos e so um zero tem um numero hnpar de membros, ao passo que m bits permite um numero par de 
padroes de bits. Sempre havera um padrao de bits a mais ou um padrao de bits a menos, nao importando qual 
representagao seja escolhida. Esse padrao de bits extra pode ser usado para -0 ou para um numero negativo gran¬ 
de, ou para qualquer outra coisa, mas, nao importa qual seja usado, ele sempre sera um incomodo. 


A.5 Aritmetica binaria 

A tabela de adigao para numeros binarios e dada na Figura A.8. 


Figura A.8 A tabela de adicao em binario. 


Adendo 0 

Augendo +0 

Soma 0 

Vai-um 0 


0 

+ 1 
1 
0 


1 1 

+0 +1 

1 0 

0 1 


Dois numeros binarios podem ser somados, iniciando no bit da extrema direita e somando-se os bits cor- 
respondentes nas parcelas. Se for gerado um vai-um, ele e transportado uma posigao a esquerda, assim como na 
aritmetica decimal. Na aritmetica do complemento de um, um vai-um gerado pela adigao dos bits da extrema 
esquerda e somado ao bit da extrema direita. Esse processo e denominado vai-um de contorno. Na aritmetica de 
complemento de dois, um vai-um gerado pela adigao dos bits da extrema esquerda e simplesmente descartado. 
Alguns exemplos de aritmetica binaria podem ser vistos na Figura A.9. 


Figura A.9 Adicao em complemento de um e complemento de dois. 


Decimal 

Complemento de 1 

Complemento de 2 

10 

00001010 

00001010 

+ (-3) 

11111100 

11111101 

+7 

1 00000110 

1 00000111 

1 


vai-um 1 

00000111 

T 

descartado 
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Se as parcelas tiverem sinais opostos, nao pode ocorrer um erro de excesso. Se tiverem o mesmo sinal e o 
resultado tiver sinal oposto, ocorreu um erro de excesso e a resposta esta errada. Em ambas as aritmeticas, de 
complemento de um e de complemento de dois, ocorre excesso se, e somente se, o vai-um para o bit de sinal for 
diferente do vai-um do bit de sinal. A maioria dos computadores preserva o vai-um do bit de sinal, mas o vai-um 
para o bit de sinal nao e vislvel pela resposta. Por essa razao, em geral e fornecido um bit especial de excesso. 


Problemas 

1. Converta os seguintes numeros para binario: 1.984, 
4.000, 8.192. 

2. Como 1001101001 (binario) e representado em deci¬ 
mal? E em octal? E em hexadecimal? 

3. Quais dos seguintes sao numeros hexadecimais validos? 
BED, CAB, DEAD, DECADE, ACCEDED, BAG, DAD. 

4. Expresse o numero decimal 100 em todas as bases 
de 2 a 9. 

5. Quantos inteiros positivos diferentes podem ser expres- 
sos em k digitos usando numeros de base r? 

6. A maioria das pessoas so pode contar ate 10 nos 
dedos; porem, os cientistas de computador podem 
fazer melhor. Se voce considerar cada dedo como 
um bit binario, com o dedo estendido indicando 1 e 
o dedo recolhido indicando 0, ate quanto voce pode 
contar usando as duas maos? E com as duas maos e 
os dois pes? Agora, use tanto as maos como os pes, 
com o dedao de seu pe esquerdo representando um 
bit de sinal para numeros de complemento de dois. 
Qual e a faixa de numeros que pode ser expressa 
desse modo? 

7. Efetue os seguintes calculos em numeros de 8 bits de 
complemento de dois. 

00101101 11111111 00000000 11110111 
+ 01101111 + 11111111 - 11111111 - 11110111 

8. Repita o calculo do problema anterior, mas agora em 
complemento de um. 

9. Considere os seguintes problemas de adigao para 
numeros binarios de 3 bits no complemento de dois. 
Para cada soma, diga 

a. Se o bit de sinal do resultado e 1. 

b. Se os 3 bits de ordem baixa sao 0. 

c. Se houve um excesso. 


000 000 111 100 100 
+ 001 + 111 +U0 +m + 100 

10. Numeros decimais com sinal, consistindo em n digi¬ 
tos, podem ser representados em n + 1 digitos sem 
um sinal. Numeros positivos tern 0 como digito da 
extrema esquerda. Numeros negativos sao formados 
subtraindo cada digito de 9. Assim, o negativo de 
014725 e 985274. Esses numeros sao denominados 
numeros em complemento de nove e sao semelhan- 
tes aos numeros binarios em complemento de um. 
Expresse os seguintes como numeros em comple¬ 
mento de nove com tres digitos: 6, -2, 100, -14, -1, 0. 

11. Determine a regra para adigao de numeros em com¬ 
plemento de nove e depois efetue as adigoes a seguir: 

0001 0001 9997 9241 

+ 9999 + 9998 + 9996 + 0802 

12. Complemento de dez e semelhante ao complemento 
de dois. Um numero negativo no complemento de dez 
e formado somando 1 ao numero no complemento de 
nove correspondente, ignorando o vai-um. Qual e a 
regra da adigao para numeros no complemento de dez? 

13. Construa tabelas de multiplicagao para numeros de 
base 3. 

14. Multiplique 0111 eOOll em binario. 

15. Escreva um programa que aceite um numero decimal 
com sinal como uma cadeia em ASCII e imprima sua 
representagao em complemento de dois em binario, 
octal e hexadecimal. 

16. Escreva um programa que aceite duas cadeias ASCII 
de 32 caracteres contendo 0s e Is, cada uma represen¬ 
tando um numero binario de 32 bits em complemento 
de dois. O programa devera imprimir sua soma como 
uma cadeia ASCII de 32 caracteres com 0s e Is. 














Numeros de ponto flutuante 


E m muitos calculos, a faixa de numeros usados e muito grande. Por exemplo, um calculo de astronomia 
poderia envolver a massa do eletron, 9 x 10 -28 gramas, e a massa do Sol, 2 x 10 33 gramas, uma faixa que 
ultrapassa 10 60 . Esses numeros poderiam ser representados por 

0000000000000000000000000000000000,0000000000000000000000000009 
2000000000000000000000000000000000,0000000000000000000000000000 

e todos os calculos poderiam ser efetuados mantendo-se 34 dlgitos a esquerda da vlrgula e 28 casas a direita dela. 
Isso permitiria 62 dlgitos significativos nos resultados. Em um computador binario, poderia ser usada aritmetica 
de dupla precisao para fornecer significance suficiente. Porem, a massa do sol nem sequer e conhecida com exa- 
tidao ate cinco dlgitos significativos, muito menos 62. Na verdade, poucas medigoes de qualquer tipo podem (ou 
precisam) ser feitas com precisao de 62 dlgitos significativos. Embora seja posslvel man ter todos os resultados 
intermediaries com 62 dlgitos significativos e depois descartar 50 ou 60 deles antes de imprimir o resultado final, 
isso seria um desperdlcio de tempo de CPU e de memoria. 

Precisamos de um sistema que represente numeros em que a faixa de numeros que podem ser expressos 
e independente do numero de dlgitos significativos. Neste apendice, discutiremos tal sistema. Ele e baseado na 
notagao cientlfica normalmente utilizada na flsica, qulmica e engenharia. 


B.l Principios de ponto flutuante 

Um modo de separar a faixa da precisao e expressar numeros na conhecida notagao cientlfica 
n =f x 10 e 
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em que/ e denominada a fragao, ou mantissa, e e e um inteiro positivo ou negativo, chamado expoente. A versao 
para computador dessa notagao e chamada ponto flutuante. Alguns exemplos de numeros expressos nessa forma sao 

3,14 = 0,314 x 10 1 = 3,14 x 10° 

0,000001 = 0,1 x 10- 5 = 1,0 x io - 6 

1941 = 0,1941 x 10 4 = 1,941 x 10 3 

A faixa e efetivamente determinada pelo numero de dlgitos no expoente e a precisao e definida pelo numero 
de dlgitos na mantissa. Como ha mais de uma maneira de representar um numero qualquer, em geral e escolhida 
uma forma como padrao. Para investigar as propriedades desse metodo de representar numeros, considere uma 
representagao, R, com uma mantissa de tres dlgitos com sinal, na faixa 0,1 < |/| < 1 ou zero e um expoente de dois 
digitos com sinal. A faixa de grandeza desses numeros vai de +0,100 x 10"" a +0,999 x 10 + ", o que abrange quase 
199 ordens de grandeza, ainda assim sao necessarios so cinco digitos e dois sinais para armazenar um numero. 

Numeros de ponto flutuante podem ser usados para modelar o sistema de numeros reais da matematica, 
embora haja algumas diferengas. A Figura B.l apresenta um esquema exagerado da linha de numeros reais. A 
linha de numeros reais e dividida em sete regioes: 

1. Numeros negativos grandes menores que -0,999 x 10". 

2. Numeros negativos entre -0,999 x 10" e -0,100 x 10"". 

3. Numeros negativos pequenos com grandezas menores que 0,100 x 10"". 

4. Zero. 

5. Numeros positivos pequenos com grandezas menores que 0,100 x 10"". 

6. Numeros positivos entre 0,100 x 10"" e 0,999 x 10". 

7. Numeros positivos grandes maiores que 0,999 x 10". 


Figura B.l A linha de numeros reais pode ser dividida em sete regioes. 


1 

Excesso 

negativo 

A 

3 

Falta 

negativa 

2 \ 
Numeros 

negativos expressos \ 

_A_ _A 

4 

Zero 

1 

5 

Falta 
positiva 
/ 6 

Numeros 

/ positivos expressos 

\ _ _A_ 

7 

Excesso 

positivo 

A 


-10" 

1 

o _ 

o 

o 

i 

0 

io ' 100 

10" 


Uma diferenga importante entre o conjunto de numeros que podem ser representados com tres digitos de 
mantissa e dois digitos de expoente e os numeros reais e que os primeiros nao podem ser usados para expressar 
quaisquer numeros nas regioes 1, 3, 5 ou 7. Se o resultado de uma operagao aritmetica gerar um numero nas 
regioes 1 ou 7 (por exemplo, 10 60 x 10 60 = 10 120 ), havera erro de excesso ( overflow ) e a resposta estara incorreta. 
O motivo para isso deve-se a natureza finita da representagao para numeros e, portanto, e inevitavel. De modo 
semelhante, um resultado nas regioes 3 ou 5 tambem nao pode ser expresso. Essa situagao e denominada erro de 
falta ( underflow ). Ele e menos serio do que o erro de excesso, pois 0 costuma ser uma aproximagao satisfatoria 
para os numeros nas regioes 3 e 5. Um saldo bancario de IO" 102 dolares nao sera melhor do que um saldo de 0. 

Outra diferenga importante entre numeros de ponto flutuante e numeros reais e sua densidade. Entre dois 
numeros reais quaisquer, x e y, existe outro numero real, nao importando a proximidade entre x e y. Essa pro- 
priedade vem do fato de que para quaisquer numeros reais distintos, x ey, z = (x + y)/2 e um numero real entre 
eles. Os numeros reais formam uma sequencia continua. 
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Numeros de ponto flutuante, ao contrario, nao formam tal sequencia. Exatos 179.100 numeros positivos podem 
ser expressos no sistema de cinco dlgitos e dois sinais usado anteriormente, 179.100 numeros negativos e 0 (que 
pode ser expresso de varias maneiras), gerando um total de 358.201 numeros. Do numero infinito de numeros 
reais entre -10 +10 ° e +0,999 x 10", somente 358.201 deles podem ser especificados por essa notagao. Eles sao sim- 
bolizados pelos pontos na Figura B.l. E bem posslvel que o resultado de um calculo seja um dos outros numeros, 
embora esteja na regiao 2 ou 6. Por exemplo, +0,100 x 10 3 dividido por 3 nao pode ser expresso exatamente em 
nosso sistema de representagao. Se o resultado de um calculo nao puder ser revelado na representagao numerica 
sendo usada, a coisa obvia a fazer e usar o numero mais proximo que pode ser expresso. Esse processo e deno- 
minado arredondamento. 

O espagamento entre numeros adjacentes que podem ser expressos nao e cons tan te pela regiao 2 ou 6. A 
separagao entre +0,998 x 10" e +0,999 x 10" e muito maior do que a separagao entre +0,998 x 10° e +0,999 x 10°. 
Contudo, quando a separagao entre um numero e seu sucessor e expressa como uma porcentagem desse numero, 
nao ha variagao sistematica pela regiao 2 ou 6. Em outras palavras, o erro relativo introduzido pelo arredonda¬ 
mento e mais ou menos o mesmo para numeros pequenos e numeros grandes. 

Embora a discussao anterior fosse em termos de um sistema de representagao com uma mantissa de tres dlgi¬ 
tos e um expoente de dois dlgitos, as conclusoes a que chegamos tambem sao validas para outros sistemas. Mudar 
o numero de dlgitos na mantissa ou expoente apenas desloca as fronteiras das regioes 2 e 6 e altera o numero de 
pontos que podem ser expressos nessas regioes. Aumentar o numero de dlgitos na mantissa aumenta a densidade 
de pontos e, portanto, melhora a precisao das aproximagoes. Aumentar o numero de dlgitos no expoente aumenta 
o tamanho das regioes 2 e 6 e reduz as regioes 1, 3, 5 e 7. A Figura B.2 mostra as fronteiras aproximadas da regiao 
6 para numeros decimais de ponto flutuante para diversos tamanhos de mantissa e expoente. 


Figura B.2 Os limites inferior e superior aproximados de numeros decimais de ponto flutuante (nao normalizados) que podem ser expressos. 
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Uma variagao dessa representagao e usada nos computadores. Por questao de eficiencia, a exponenciagao tem 
base 2, 4, 8 ou 16, em vez de 10, e nesse caso, a mantissa consiste em uma cadeia de dlgitos binarios, de base 4, 
octais ou decimals. Se o dlgito da extrema esquerda for zero, todos os dlgitos podem ser deslocados uma posigao 
para a esquerda e o expoente diminuldo em 1, sem alterar o valor do numero (exceto quando ha falta). Uma 
mantissa com um dlgito diferente de zero na extrema esquerda e denominada normalizada. 

Numeros normalizados em geral sao preferlveis, pois ha somente uma forma, enquanto existem muitas for¬ 
mas nao normalizadas. A Figura B.3 oferece alguns exemplos de numeros de ponto flutuante normalizados para 
duas bases de exponenciagao. Nesses exemplos, sao mostrados uma mantissa de 16 bits (incluindo o bit de sinal) 
e um expoente de 7 bits usando notagao de excesso 64. O ponto de base (vlrgula aritmetica) esta a esquerda do 
bit da extrema esquerda da mantissa - is to e, a direita do expoente. 


Figura B.3 


Exemplos de numeros de ponto flutuante normalizados. 


Exemplo 1: exponenciagao de base 2 
2 _ 2 2 -4 2 -8 2 .—^ 8 2 -1 ^ 2 -14 2 — ^ 8 



Nao normalizado: 0 1010100 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 = 2 20 (1 x2 12 + 1 x2 13 + 1 x2 15 

Sinai Expoente do Mantissa e 1 x 2“ 12 + 1 x 2“ 13 +1x2 ) = 432 

+ excesso 64 e +i x 2~ 15 + 1 x 2“ 16 

84 - 64 = 20 


Para normalizar, desloque a fragao 11 bits para a esquerda e subtraia 11 do expoente. 


Normalizado: 01001001 1 1 01 1 00000000000 = 2 9 (1 x 2 _1 + 1 x r 2 + 1 x 2^ 

Sinai Expoente do Mantissa e 1 x 2" 1 + 1 x 2" 2 + 1 x 2 5 ) = 432 

+ excesso 64 e +1 x 2“ 4 + 1 x 2“ 5 

73 - 64 = 9 

Exemplo 2: exponenciagao de base 16 

16 _1 16 -2 16~ 3 16 -4 

/\ /\ /\ /\ 

Nao normalizado: 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 01 1011 = 16 5 (1 x 16” 3 +B x 16” 4 ) = 432 


Sinai Expoente do Mantissa e1x16 3 +Bx16 4 

+ excesso 64 e 
69 - 64 = 5 

Para normalizar, desloque a fragao dois dfgitos hexadecimais para a esquerda e subtraia 2 do expoente. 


Normalizado: 0 1 0 0 0 011 0 0 01 1011 0 0 0 0 0 0 0 0 = 16 3 (1 x 16 _1 + B x 16~ 2 ) = 432 


Sinai Expoente do Mantissa e 1 x 16 1 + Bx16 2 

+ excesso 64 e 
67 - 64 = 3 


B.2 Padrao de ponto flutuante IEEE 754 

Ate por volta de 1980, cada fabricante de computador tinha seu proprio formato de ponto flutuante. Nao 
e preciso dizer que todos eram diferentes. Pior ainda, alguns deles de fa to efetuavam aritmetica incorretamente, 
pois a de ponto flutuante tem algumas sutilezas que nao sao obvias para o projetista de hardware comum. 

Para remediar essa situagao, no final da decada de 1970, o IEEE instituiu um comite para padronizar a 
aritmetica de ponto flutuante. O objetivo nao era apenas permitir que dados de ponto flutuante fossem trocados 
entre diferentes computadores, mas tambem dar aos projetistas de hardware um modelo comprovadamente cor- 
reto. O trabalho resultante levou ao IEEE Standard 754 (IEEE, 1985). A maioria das CPUs de hoje (entre elas, 
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as estudadas neste livro) possui instrugoes de ponto flutuante que obedecem ao padrao do IEEE. Diferente de 
muitos outros, que tendem a ser meras solugoes de compromisso que nao agradam a ninguem, esse padrao nao 
e ruim, em grande parte porque foi, principalmente, o trabalho de uma unica pessoa, o professor de matematica 
de Berkeley, William Kahan. O padrao sera descrito no restante desta segao. 

O padrao define tres formatos: precisao simples (32 bits), precisao dupla (64 bits) e precisao estendida (80 
bits). O forma to de precisao estendida pretende reduzir erros de arredondamento. Ele e usado principalmente 
dentro das unidades aritmeticas de ponto flutuante, de modo que nao entraremos em mais detalhes. Os formatos 
de precisao simples e dupla utilizam base 2 para mantissas e notagao de excesso para expoentes. Eles aparecem 
na Figura B.4. 


Figura B.4 Formatos de ponto flutuante padrao IEEE, (a) Precisao simples, (b) Precisao dupla. 


Bits 1 8 23 


Mantissa 
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Sinai Expoente 
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Os dois formatos comegam com um bit de sinal para o numero como um todo, sendo 0 positivo e 1 negativo. 
Em seguida, vem o expoente, usando excesso 127 para precisao simples e excesso 1.023 para precisao dupla. Os 
expoentes mlnimo (0) e maximos (255 e 2.047) nao sao usados para numeros normalizados; eles possuem usos 
especiais, conforme descrevemos mais adiante. Por fim, temos as mantissas, de 23 e 52 bits, respectivamente. 

Uma mantissa normalizada comega com um ponto binario, seguido por um bit 1, e depois o restante dela. 
Seguindo uma pratica iniciada no PDP-11, os autores do padrao observaram que o bit 1 inicial da mantissa nao 
precisa ser armazenado, pois e posslvel apenas admitir que ele esta presente. Por conseguinte, o padrao define a 
mantissa de um modo ligeiramente diferente do normal. Ela consiste em um bit 1 impllcito, um ponto binario 
implicito e depois 23 ou 52 bits quaisquer. Se todos os 23 ou 52 bits forem Os, a mantissa tera o valor numeri- 
co 1,0; se todos esses bits forem Is, ela e, numericamente, um pouco menor que 2,0. Para evitar confusao com 
uma mantissa convencional, a combinagao do 1 impllcito com o ponto binario impllcito e com os 23 ou 52 bits 
expllcitos e denominada um significando, em vez de uma mantissa. Todos os numeros normalizados tern um 
significando, s, no intervalo de 1 < s < 2. 

As caracterlsticas numericas dos numeros de ponto flutuante padrao IEEE sao dadas na Figura B.5. Como 
exemplos, considere os numeros 0,5, 1 e 1,5 no formato normalizado de precisao simples. Eles sao representados 
em hexadecimal como 3F000000, 3F800000 e 3FC00000, respectivamente. 
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Figura B.5 Caracterfsticas dos numeros de ponto flutuante padrao IEEE. 


Item 

Precisao simples 

Precisao dupla 

Bits no sinal 

1 

1 

Bits no expoente 

8 

11 

Bits na mantissa 

23 

52 

Bits, total 

32 

64 

Sistema de expoente 

Excesso 127 

Excesso 1023 

Faixa de expoente 

-126 a +127 

-1.022 a+1023 

Menor numero normalizado 

2-126 

2-1.022 

Maior numero normalizado 

aprox. 2 128 

aprox. 2 1024 

Faixa decimal 

aprox. 10~ 38 a 10 38 

aprox. 10- 308 a 10 308 

Menor numero nao normalizado 

aprox. 10 -45 

aprox. 10 -324 


Um dos problemas tradicionais com os numeros de ponto flutuante e como lidar com erros de falta, excesso 
e numeros nao inicializados. O padrao IEEE trata desses problemas explicitamente, tomando emprestada sua 
tecnica em parte do CDC 6600. Alem dos numeros normalizados, o padrao tern quatro outros tipos numericos, 
descritos a seguir e mostrados na Figura B.6. 


Figura B.6 Tipos numericos padrao IEEE. 
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v Bit de sinal 


Surge um problema quando o resultado de um calculo tern uma magnitude menor do que o menor numero 
de ponto flutuante normalizado que pode ser representado nesse sistema. Antes, quase todo hardware adotava 
uma de duas tecnicas: simplesmente definir o resultado como zero e continuar ou causar uma exceqao de falta 
de ponto flutuante. Nenhuma dessas e realmente satisfatoria, de modo que o IEEE inventou os numeros nao 
normalizados. Esses numeros tern um expoente 0 e uma mantissa dada pelos 23 ou 52 bits seguintes. O bit 1 
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impllcito a esquerda do ponto binario agora se torna um 0. Numeros nao normalizados podem ser distinguidos 
dos normalizados porque nao e permitido que os normalizados tenham um expoente 0. 

O menor numero de precisao simples normalizado tern 1 como expoente e 0 como mantissa, e representa 
1,0 x 2 -126 . O maior numero nao normalizado tern 0 como expoente e todos os dlgitos 1 na mantissa, e repre¬ 
senta cerca de 0,9999999 x 2 -126 , que e quase a mesma coisa. Deve-se notar, entretanto, que esse numero tern 
apenas 23 bits significativos, contra 24 para todos os numeros normalizados. 

A medida que calculos reduzem ainda mais esse resultado, o expoente continua firme em 0, mas os primei- 
ros poucos bits da mantissa tornam-se zeros, o que reduz o valor, bem como o numero de bits significativos na 
mantissa. O menor numero nao normalizado diferente de zero consiste em 1 no bit da extrema direita, sendo o 
restante 0. O expoente representa 2 -126 e a mantissa representa 2 -23 , de modo que o valor e 2 -149 . Esse esquema 
oferece um erro de falta controlado, abrindo mao de significance em vez de saltar para 0 quando o resultado nao 
puder ser expresso como um numero normalizado. 

Ha dois zeros presentes nesse esquema, positivo e negativo, determinados pelo bit de sinal. Ambos tern um 
expoente 0 e uma mantissa 0. Tambem aqui o bit a esquerda do ponto binario e implicitamente 0, em vez de 1. 

O erro por excesso nao pode ser tratado de forma controlada. Nao existem combinagoes de bits restantes. 
Em vez disso, uma representagao especial e fornecida para infinito, consistindo em um expoente com todos os 
bits iguais a 1 (nao permitido para numeros nao normalizados) e uma mantissa igual a 0. Esse numero pode ser 
usado como um operando e comporta-se de acordo com as regras normais da matematica para o infinito. Por 
exemplo, infinito mais qualquer coisa e infinito, e qualquer numero finito dividido por infinito e zero. De modo 
semelhante, qualquer numero finito dividido por zero resulta em infinito. 

E o infinito dividido por infinito? O resultado e indefinido. Para tratar desse caso, outro formato especial e 
fornecido, chamado NaN (Not a Number - nao e um numero). Ele tambem pode ser usado como um operando 
com resultados previslveis. 


Problemas 

1. Converta os seguintes numeros para o formato IEEE 
de precisao simples. De os resultados como oito dlgi¬ 
tos hexadecimais. 

a. 9 

b. 5/32 

c. -5/32 

d. 6,125 

2. Converta os seguintes numeros de ponto flutuante 
IEEE de precisao simples de hexadecimal para decimal: 

a. 42E48000H 

b. 3F880000H 

c. 00800000H 

d. C7F00000H 

3. O formato de numeros de ponto flutuante de preci¬ 
sao simples no 370 tern um expoente de 7 bits no sis- 
tema excesso 64 e uma mantissa que contem 24 bits 
mais um bit de sinal, com o ponto binario na extre- 
midade esquerda dela. A base para exponenciagao e 
16. A ordem dos campos e: bit de sinal, expoente, 


mantissa. Expresse o numero 7/64 como um numero 
normalizado nesse sistema em hexa. 

4. Os numeros binarios de ponto flutuante a seguir con- 
sistem em um bit de sinal, um excesso 64, expoente 
de base 2 e uma mantissa de 16 bits. Normalize-os. 

a. 0 1000000 0001010100000001 

b. 0 0111111 0000001111111111 

c. 0 1000011 1000000000000000 

5. Para somar dois numeros de ponto flutuante, voce 
precisa ajustar os expoentes (deslocando a mantis¬ 
sa) para torna-los iguais. Depois, voce pode somar 
as mantissas e normalizar o resultado, se for pre- 
ciso. Some os numeros IEEE de precisao simples 
3EE00000H e 3D800000H e expresse o resultado 
normalizado em hexadecimal. 

6. A empresa Tightwad Computer decidiu langar uma 
maquina com numeros de ponto flutuante de 16 bits. 
O Modelo 0,001 tern um formato de ponto flutuante 
com um bit de sinal, expoente de 7 bits em excesso 
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64 e mantissa de 8 bits. O Modelo 0,002 tem um bit 
de sinal, expoente de 5 bits em excesso 16 e mantissa 
de 10 bits. Ambos usam exponenciagao de base 2. 
Quais sao o menor e o maior numeros positivos nor- 
malizados em cada modelo? Quantos digitos deci- 
mais de precisao cada um tem, aproximadamente? 
Voce compraria algum desses computadores? 

7. Ha uma situagao na qual uma operagao com dois 
numeros de ponto flutuante pode causar uma redu- 
gao drastica no numero de bits significativos no 
resultado. Qual e essa situagao? 

8. Alguns chips de ponto flutuante tem uma instrugao 
de raiz quadrada embutida. Um algoritmo posslvel 
e um algoritmo iterativo (por exemplo, Newton- 
-Raphson). Os algoritmos iterativos precisam de 
uma aproximagao inicial e depois a melhoram 


constantemente. Como voce poderia obter uma 
raiz quadrada aproximada de um numero de ponto 
flutuante? 

9. Escreva um procedimento para somar dois numeros 
de ponto flutuante com precisao simples no padrao 
IEEE. Cada numero e representado por um vetor 
booleano de 32 elementos. 

10. Escreva um procedimento para somar dois numeros 
de ponto flutuante com precisao simples que usam 
base 16 para o expoente e base 2 para a mantissa, mas 
nao tem um bit 1 implicito a esquerda do ponto bina- 
rio. Um numero normalizado tem 0001, 0010,..., 1111 
como seus 4 bits da extrema esquerda da mantissa, 
mas nao 0000. Um numero e normalizado deslocan- 
do-se a mantissa 4 bits para a esquerda e subtraindo 
1 do expoente. 




Apendice 



Programacao em linguagem de montagem 


T odo computador tem uma ISA (Instruction Set Architecture - arquitetura do conjunto de instrugao), que 
e um conjunto de registradores, instrugoes e outras caracterlsticas vislveis para seus programadores de baixo 
nlvel. Essa ISA costuma ser denominada linguagem de maquina, embora o termo nao seja de todo exato. Um 
programa nesse nlvel de abstragao e uma longa lista de numeros binarios, um por instrugao, que informa quais 
instrugoes executar e quais sao seus operandos. Programar com numeros binarios e muito dificil, portanto, todas as 
maquinas tem uma linguagem de montagem (ou assembly ), uma representagao simbolica da arquitetura do conjun¬ 
to de instrugoes com nomes simbolicos como ADD, SUB e MUL, em vez de numeros binarios. Este apendice e um 
tutorial sobre programagao em linguagem de montagem para uma maquina especifica, a Intel 8088, que era usada no 
IBM PC original e foi a base da qual se desenvolveu o moderno Pentium. O apendice tambem abrange a utilizagao 
de algumas ferramentas que podem ser baixadas para ajudar a aprender programagao em linguagem de montagem. 

A finalidade deste apendice nao e produzir refinados programadores em linguagem de montagem, mas ajudar 
o leitor a aprender arquitetura de computadores por meio de experiencia pratica. Por essa razao, escolhemos uma 
maquina simples - a Intel 8088 - como exemplo de trabalho. Embora hoje as 8088s sejam raramente encontradas, 
todo Core i7 e capaz de executar programas 8088, portanto, as ligoes aprendidas aqui ainda se aplicam as maqui¬ 
nas modernas. Alem do mais, grande parte das instrugoes basicas do Core i7 refere-se as mesmas que as do 8088, 
apenas usando registradores de 32 bits em vez dos de 16 bits. Assim, este apendice tambem pode ser considerado 
uma introdugao leve a programagao em linguagem de montagem do Core i7. 

Para poder programar qualquer maquina em linguagem de montagem, o programador tem de conhecer 
detalhadamente a arquitetura do conjunto de instrugoes da maquina. De acordo com isso, as segoes C.l a C.4 
deste apendice sao dedicadas a arquitetura do 8088, sua organizagao de memoria, modos de enderegamento e 
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instrugoes. A Segao C.5 discute o assembler (ou montador), que e usado neste apendice e esta disponlvel gratui- 
tamente, como descreveremos adiante. A notagao empregada aqui e a usada por esse assembler. Outros assemblers 
usam notagoes diferentes, portanto, os leitores que ja estao familiarizados com a programagao de montagem do 
8088 devem ficar atentos as diferengas. A Segao C.6 discute uma ferramenta interpretadora/rastreadora/depura- 
dora que pode ser baixada para ajudar o principiante a depurar programas. A Segao C.7 descreve a instalagao das 
ferramentas e como comegar. A Segao C.8 contem programas, exemplos, exerclcios e solugoes. 


C.l Visao geral 

Iniciaremos nosso passeio pela programagao em linguagem de montagem fazendo alguns comentarios sobre 
linguagem de montagem e dando, em seguida, um pequeno exemplo para ilustra-la. 

C.l .1 Linguagem de montagem 

Todo assembler usa mnemonicos, is to e, palavras curtas como ADD,SUBeMUL para instrugoes de maquina 
como somar, subtrair e multiplicar para que fiquem mais faceis de lembrar. Alem disso, assemblers permitem a uti- 
lizagao de nomes simbolicos para constantes e rotulos para indicar enderegos de instrugao e memoria. Ademais, 
grande parte dos assemblers suporta certo numero de pseudoinstrugoes, que nao sao traduzidas para instrugoes 
ISA, mas que sao comandos para o assembler que direcionam o processo de montagem. 

Quando um programa em linguagem de montagem e alimentado em um programa denominado assembler, 
este o converte em um programa binario adequado para a execugao propriamente dita. Entao, ele pode ser exe- 
cutado no hardware em questao. Contudo, quando novatos comegam a programar em linguagem de montagem, 
costumam cometer erros, e o programa binario apenas para, sem ter nenhuma pista sobre o que deu errado. Para 
facilitar a vida dos iniciantes, as vezes e posslvel executar o programa binario nao no hardware em si, mas em 
um simulador, que executa uma instrugao por vez e apresenta uma imagem detalhada do que esta fazendo. Desse 
modo, a depuragao fica muito mais facil. Programas executados em um simulador rodam muito devagar, e claro, 
porem, quando a meta e aprender programa em linguagem de montagem, e nao executar um job de produgao, a 
perda de velocidade nao e importante. Este apendice e baseado em um conjunto de ferramentas que inclui um 
simulador como esse, denominado interpretador ou rastreador, porque ele interpreta e acompanha a execugao do 
programa binario passo a passo, durante a execugao. Os termos “simulador”, “interpretador” e “rastreador” serao 
utilizados indiferentemente neste apendice. Em geral, quando estivermos falando apenas sobre a execugao de um 
programa, diremos “interpretador” e, quando estivermos falando sobre a utilizagao dele como uma ferramenta de 
depuragao, diremos “rastreador”, mas e o mesmo programa. 

C.l .2 Um pequeno programa em linguagem de montagem 

Para tornar algumas dessas ideias abstratas um pouco mais concretas, considere o programa e a imagem 
do rastreador da Figura C.l. Uma imagem da tela do rastreador e dada nessa figura. A Figura C.l (a) mostra um 
programa simples em linguagem de montagem para o 8088. Os numeros apos os pontos de exclamagao sao os 
numeros das linhas da fonte, para facilitar a referenda as partes do programa. Uma copia desse programa pode ser 
encontrada na Sala Virtual, no diretorio examples. Esse programa de montagem, como todos os outros discutidos 
neste apendice, tern o sufixo .s, que indica que ele e um programa-fonte de linguagem de montagem. A tela do 
rastreador, mostrada na Figura C.l(b), contem sete janelas, cada uma com informagoes diferentes sobre o estado 
do programa binario que esta sendo executado. 

Agora, vamos examinar brevemente as sete janelas da Figura C.l(b). Na parte de cima, ha tres janelas, duas 
maiores e uma menor no meio. A janela na parte superior esquerda mostra o conteudo do processador, que con- 
siste nos valores correntes dos registradores de segmentos, CS, DS, SS e ES, dos registradores aritmeticos, AH, 
AL, AX, e de outros. 
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Figura C.l 


(a) Um programa em linguagem de montagem. (b) A tela correspondente do rastreador. 


_EXIT = 

1 

! 1 


CS: 00 DS = SS = ES: 002 


MOV 

CX,de-hw 

! 

6 

_WRITE 

= 4 

! 2 


AH :00 AL: 0c 

AX: 12 


PUSH 

CX 

! 

7 

_STDOUT =1 

! 3 


BH:00 BL: 00 

BX: 

0 


PUSH 

HW 

! 

8 

.SECT .TEXT 

! 4 


CH:00 C L: 0c 

CX: 12 


PUSH 

_STDOUT 

! 

9 

start: 


! 5 


DH:00 DL:00 

DX: 

0 


PUSH 

_WRITE 

! 

10 

MOV 

CX,de-hw 

! 6 


SP: 7fd8 SF 

O D S Z 

C 

=>0004 

SYS 


! 

11 

PUSH 

CX 

! 7 


BP: 0000 CC 

- > p - 

- 

0001 

=> ADD 

SP, 8 

! 

12 

PUSH 

hw 

! 8 


Sf; 0000 IP 

O 

CL 

o 

o 

o 

o 


0000 

SUB 

CX, AX 

! 

13 

PUSH 

_STDOUT 

! 9 


D1 : 0000 start +7 


000c 

PUSH 

CX 

! 

14 

PUSH 

WRITE 

! 10 





E 





SYS 


! 11 





1 





ADD 

SP, 8 

! 12 










SUB 

CX,AX 

! 13 


hw 








PUSH 

CX 

! 14 


■ 



> Hello 

World\n 




PUSH 

_EXIT 

! 15 


hw + 0 = 0000: 48 65 6c 

6c 6f 20 57 6f Hello World 

25928 

SYS 


! 16 










.SECT .DATA 

! 17 










hw: 


! 18 










.ASCII "Hello World\n" 

! 19 










de: .BYTE 

0 

! 20 











(a) 


(b) 


A janela do meio nessa linha de cima contem a pilha, uma area de memoria usada para valores temporaries. 

A janela a direita nessa parte superior contem um fragmento do programa em linguagem de montagem e a 
seta indica qual instrugao esta sendo executada no momento em questao. A medida que o programa e executado, 
a instrugao corrente muda e a seta se move para aponta-la. A forga do rastreador e que, acionando a tecla de Return 
(Enter, nos teclados de PCs), uma unica instrugao e executada e todas as janelas sao atualizadas, o que possibilita 
executar o programa em camera lenta. 

Abaixo da janela a esquerda ha outra janela que contem a pilha de chamadas de sub-rotina que, em nosso 
exemplo, esta vazia. Abaixo dela estao comandos para o proprio rastreador. A direita dessas duas janelas ha uma 
janela para entrada, salda e mensagens de erro. 

Embaixo dessas janelas ha outra que mostra uma parte da memoria. Essas janelas serao discutidas com mais deta- 
lhes mais a frente, mas a ideia basica deve estar clara: o rastreador mostra o programa-fonte, os registradores da maquina 
e uma boa quantidade de informagoes sobre o estado do programa que esta em execugao. A medida que cada instrugao e 
executada, a informagao e atualizada, o que permite ao usuario ver, com grande detalhe, o que o programa esta fazendo. 


C.2 0 processador 8088 

Cada processador, incluindo o 8088, tern um estado interno, no qual man tern certas informagoes fundamen¬ 
tal. Para essa finalidade, o processador tern um conjunto de registradores nos quais essas informagoes podem 
ser armazenadas e processadas. Provavelmente o mais importante deles e o PC (Program Counter - contador de 
programa) que contem a localizagao de memoria, isto e, o enderego, da proxima instrugao a ser executada. Esse 
registrador tambem e denominado IP (Instruction Pointer - ponteiro de instrugao). Essa instrugao esta localiza- 
da em uma parte da memoria principal denominada segmento de codigo. A memoria principal no 8088 pode ter 
ate um pouco mais de 1 MB de tamanho, mas o segmento de codigo corrente tern apenas 64 KB. O registrador 
CS na Figura C.l informa onde o segmento de codigo de 64 KB comega dentro da memoria de 1 MB. Um novo 
segmento de codigo pode ser ativado pela simples mudanga do valor no registrador CS. De modo semelhante, 
tambem ha um segmento de dados de 64 KB, que informa onde os dados comegam. Na Figura C.l, sua origem e 
dada pelo registrador DS, que tambem pode ser alterado conforme necessario para acessar dados fora do segmento 
de dados corrente. Os registradores CS e DS sao necessarios porque o 8088 tern registradores de 16 bits, portanto, 
eles nao podem conter, diretamente, os enderegos de 20 bits necessarios para referenciar toda a memoria de 1 MB. 
E por isso que os registradores de segmentos de dados e de codigo foram introduzidos. 
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Os outros registradores contem dados ou ponteiros para dados na memoria principal. Em programas em 
linguagem de montagem, esses registradores podem ser acessados diretamente. A parte desses registradores, o 
processador tambem contem todo o equipamento necessario para executar as instrugoes, mas essas partes estao 
disponlveis para o programador somente por meio de instrugoes. 

C.2.1 0 cido do processador 

A operagao do 8088 (e de todos os outros computadores) consiste em executar instrugoes, uma apos a outra. 
A execugao de uma unica instrugao pode ser subdividida nas seguintes etapas: 

1. Buscar a instrugao na memoria no segmento de codigo usando o PC. 

2. Incrementar o contador de programa. 

3. Decodificar a instrugao buscada. 

4. Buscar os dados necessarios na memoria e/ou nos registradores do processador. 

5. Executar a instrugao. 

6. Armazenar os resultados da instrugao na memoria e/ou registradores. 

7. Voltar a etapa 1 para iniciar a instrugao seguinte. 

A execugao de uma instrugao se parece um pouco com a de um programa muito pequeno. Na verdade, algu- 
mas maquinas realmente tern um pequeno programa, denominado microprograma, para executar suas instrugoes. 
Os microprogramas sao descritos detalhadamente no Capltulo 4. 

Do ponto de vista de um programador em linguagem de montagem, o 8088 tern um conjunto de 14 registradores. 
Eles sao, de certo modo, o bloco de rascunho onde as instrugoes operam, e estao em constante uso, embora os resultados 
neles armazenados sejam muito volateis. A Figura C.2 da uma visao geral desses 14 registradores. E claro que essa figura 
e a janela de registradores do rastreador da Figura C.l sao muito semelhantes, pois representam a mesma informagao. 


Figura C .2 Os registradores do 8088 . 


Registradores gerais 


AX 

AH 

AL 

BX 

BH 

BL 

CX 

CH 

CL 

DX 

DH 

DL 


15 8 

7 0 


Ponteiro e indice 

SP 

Ponteiro de pilha 

BP 

Ponteiro de base 

SI 

Indice de fonte 

Dj 

Indice de destino 


15 


Registradores de segmentos 


CS 

DS 

SS 

ES 


Segmento de codigo 


Segmento de dados 


Segmento de pilha 


Segmento extra 


15 


Codigos de condigao 


SF 


IP 


prq 

ODI T 

^rn 

SZ A 

PTr 

P C 


CC 


15 Flags de status 0 
Ponteiro de instrugao 


Contador de programa 


PC 


15 


0 
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Os registradores do 8088 tem 16 bits de largura. Nao existem dois registradores que sejam completamente 
equivalentes em termos funcionais, porem alguns deles compartilham certas caracterlsticas, portanto, sao dividi- 
dos em grupos na Figura C.2. Agora, vamos discutir os diferentes grupos. 

C.2.2 Os registradores gerais 

Os registradores do primeiro grupo, AX, BX, CX e DX, sao os registradores gerais. O primeiro desse grupo, AX, 
e denominado registrador acumulador. Ele e usado para coletar resultados de computagoes eeo alvo de muitas 
das instrugoes. Embora cada registrador possa executar grande quantidade de tarefas, em algumas instrugoes, esse 
AX e o destino implicito, por exemplo, na multiplicagao. 

O segundo registrador e o BX, o registrador de base. Para muitas finalidades, o BX pode ser usado da mesma 
maneira que o AX, mas ele tem um poder que o AX nao possui. E posslvel colocar um enderego de memoria em 
BX e entao executar uma instrugao cujo operando vem do enderego de memoria contido em BX. Em outras pala- 
vras, BX pode conter um ponteiro para a memoria, mas AX nao. Para mostrar isso, comparamos duas instrugoes. 
Em primeiro lugar, temos 

MOV AX,BX 

que copia para AX o conteudo de BX. Em segundo lugar, temos 

MOV AX,(BX) 

que copia para AX o conteudo da palavra de memoria cujo enderego esta contido em BX. No primeiro exemplo, 
BX contem o operando fonte; no segundo, ele aponta para o operando fonte. Em ambos os exemplos, note que a 
instrugao MOV tem um operando fonte e um destino, e que o destino esta escrito antes da fonte. 

O proximo e CX, o registrador contador. Alem de realizar muitas outras tarefas, e usado em especial para 
conter contadores para lagos. Ele e automaticamente decrementado na instrugao LOOP, e os lagos costumam ser 
encerrados quando CX chega a zero. 

O quarto registrador do grupo geral e DX, o registrador de dados. Ele e usado junto com AX em instrugoes 
de comprimento de palavra dupla (isto e, 32 bits). Nesse caso, DX contem os 16 bits de ordem alta e AX possui 
os 16 bits de ordem baixa. Os inteiros de 32 bits costumam ser indicados pelo termo longo. O termo duplo e 
normalmente reservado para valores de ponto flutuante de 64 bits, embora ha quern use “duplo” para inteiros de 
32 bits. Neste tutorial, nao havera confusao, pois nao discutiremos numeros de ponto flutuante. 

Todos esses registradores gerais podem ser entendidos como um registrador de 16 bits ou como um par de 
registradores de 8 bits. Desse modo, o 8088 tem exatos oito registradores diferentes de 8 bits, que podem ser 
usados em instrugoes de byte e de caracteres. Nenhum dos outros registradores pode ser dividido em metades de 8 
bits. Algumas instrugoes usam um registrador inteiro, como AX, porem outras instrugoes usam apenas metade de 
um registrador, como AL ou AEI. Em geral, instrugoes que efetuam aritmetica usam os registradores completos 
de 16 bits, mas as que lidam com caracteres em geral usam os de 8 bits. Todavia, e importante entender que AL e AH 
sao apenas nomes para ambas as metades de AX. Quando AX e carregado com um novo valor, tanto AL quanto 
AH sao mudados, respectivamente, para as metades inferior e superior do numero de 16 bits colocado em AX. Para 
ver como AX, AH e AL interagem, considere a instrugao 

MOV AX,258 

que carrega o registrador AX com o valor decimal 258. Apos essa instrugao, o registrador de bytes AH contem o 
valor 1, e o registrador de bytes AL contem o numero 2. Se essa instrugao for seguida pela de soma de bytes 

ADDB AH,AL 

entao o registrador de bytes AH e incrementado pelo valor em AL (2), de modo que, agora, ele contem 3. O efeito 
dessa agao sobre o registrador AX e que seu valor agora e 770, o que equivale a 00000011 00000010 em notagao 
binaria, ou a 0x03 0x02 em notagao hexadecimal. Os registradores de oito bytes de largura sao quase intercambia- 
veis, com a excegao que AL sempre contem um dos operandos na instrugao MULB, eeo destino implicito dessa 
operagao, junto com AH. DIVB tambem usa o par AH : AL para o dividendo. O byte mais baixo do registrador de 
contador CL pode ser usado para conter o numero de ciclos em instrugoes de deslocamento e rotagao. 
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A Segao C.8, Exemplo 2, mostra algumas das propriedades dos registradores gerais por meio de uma discus- 
sao do programa GenReg.s. 

C.2.3 Registradores de ponteiros 

O segundo grupo de registradores consiste nos registradores de ponteiros e indices. O registrador mais 
importante desse grupo e o ponteiro de pilha, que e indicado por SP. Pilhas sao importantes na maioria das lin- 
guagens de programagao. A pilha e um segmento de memoria que contem certas informagoes de contexto sobre 
o programa em execugao. Em geral, quando um procedimento e chamado, parte da pilha e reservada para conter 
as variaveis locais do procedimento, o enderego para onde retornar quando o procedimento estiver concluldo e 
outras informagoes de controle. A porgao da pilha relativa a um procedimento e denominada seu quadro de pilha. 
Quando um procedimento chamado chama outro, um quadro de pilha adicional e alocado, em geral logo abaixo 
do quadro corrente. Chamadas adicionais alocam quadros de pilha adicionais abaixo dos atuais. Embora nao seja 
obrigatorio, pilhas quase sempre crescem para baixo, de enderegos altos para baixos. Nao obstante, o enderego 
numerico mais baixo ocupado na pilha e sempre denominado o topo dela. 

Alem de utilizadas para conter variaveis locais, pilhas tambem podem conter resultados temporarios. O 8088 
tern uma instrugao, PUSH, que coloca uma palavra de 16 bits no topo da pilha. Essa instrugao primeiro decre- 
menta SP de 2, entao armazena seu operando no enderego que SP esta apontando agora. De modo semelhante, 
a instrugao POP retira uma palavra de 16 bits do topo da pilha buscando o valor no topo e entao incrementando 
SP em 2. O registrador SP aponta para o topo e e modificado por instrugoes PUSH, POP e CALL, sendo decre- 
mentado por PUSH, incrementado por POP e decrementado por CALL. 

O proximo nesse grupo e BP, o registrador de base. Em geral, ele contem um enderego na pilha. Enquanto 
SP sempre aponta para o topo, BP pode apontar para qualquer local dentro da pilha. Na pratica, um uso comum 
para BP e apontar para o inlcio do quadro de pilha do procedimento corrente, de modo a ficar mais facil achar as 
variaveis locais do procedimento. Assim, BP aponta para a parte de baixo do quadro de pilha corrente (a palavra 
de quadro de pilha que tern o enderego numerico mais alto) e SP aponta para o topo (a palavra de quadro de pilha 
corrente que tern o enderego numerico mais baixo). Assim, o quadro de pilha corrente e delimitado por BP e SP. 

Nesse grupo, ha dois registradores de indice: SI, o indice de origem, e Dl, o indice de destino. Eles costu- 
mam ser usados em combinagao com BP para enderegar dados na pilha, ou com BX para calcular os enderegos 
de localizagao de dados de memoria. Deixamos o tratamento mais extensivo desses registradores para a segao que 
trata de modos de enderegamento. 

Um dos registradores mais importantes, que e um grupo em si, e o ponteiro de instrugao, nome que a Intel 
da para o contador de programa (PC). Ele nao e enderegado diretamente pelas instrugoes, mas contem um ende¬ 
rego no segmento de codigo de programa da memoria. O ciclo de instrugao do processador comega pela busca 
da instrugao apontada pelo PC. Entao, esse registrador e incrementado antes que o restante da instrugao seja 
executado. Desse modo, esse contador de programa aponta para a primeira apos a instrugao corrente. 

O registrador de flag ou registrador de codigo de condigao e, na verdade, um conjunto de registradores 
de um unico bit. Alguns dos bits sao marcados por instrugoes aritmeticas e estao relacionados com o resultado, 
como segue: 

Z - resultado e zero 

S - resultado e negativo (bit de sinal) 

V - resultado gerou um excesso 

C - resultado gerou um vai-um 

A - vai-um auxiliar (vai-um do bit 3) 

P - paridade do resultado 

Outros bits nesse registrador controlam a operagao de certos aspectos do processador. O bit I habilita 
interrupgoes. O bit T habilita o modo de rastreamento, que e usado para depuragao. Por fim, o bit D controla 



548 


Organizacao estruturada de computadores 


a diregao das operagoes de cadeia de caracteres (string). Nem todos os 16 bits desse registrador de flag sao 
utilizados; os que nao sao, estao ligados eletricamente a zero. 

Ha quatro registradores no grupo de registradores de segmentos. Lembre-se de que a pilha, os dados e 
os codigos de instrugao, todos residem na memoria principal, mas, geralmente, em partes diferentes. Os regis¬ 
tradores de segmentos comandam essas partes diferentes da memoria, que sao denominadas segmentos. Esses 
registradores sao denominados CS para o de segmentos de codigo, DS para o de segmentos de dados, SS para o 
de segmentos de pilha e ES para o de segmentos extras. Na maior parte do tempo, seus valores nao sao alterados. 
Na pratica, o segmento de dados e o de pilha usam a mesma parte da memoria, e os dados ficam na parte inferior 
do segmento e a pilha no topo. Explicaremos mais sobre esses registradores na Segao C.3.1. 


C.3 Memoria e enderecamento 

O 8088 tern uma organizagao de memoria um tanto deselegante por combinar uma memoria de 1 MB com 
registradores de 16 bits. Com uma memoria de 1 MB, sao necessarios 20 bits para representar um enderego de 
memoria. Assim, e imposslvel armazenar um ponteiro para memoria em qualquer dos registradores de 16 bits. 
Para contornar esse problema, a memoria e organizada como segmentos, cada um deles de 64 KB, de modo que 
um enderego dentro de um segmento pode ser representado em 16 bits. Agora, vamos entrar em mais detalhes 
sobre a arquitetura da memoria do 8088. 

C.3.1 Organizacao da memoria e segmentos 

A memoria do 8088, que consiste apenas em um vetor de bytes de 8 bits enderegaveis, e usada para o arma- 
zenamento de instrugoes, bem como para o armazenamento de dados e para a pilha. Para separar as partes da 
memoria que sao usadas para essas diferentes finalidades, o 8088 usa segmentos que sao partes destacadas para 
certos usos. No 8088, tal segmento consiste em 65.536 bytes consecutivos. Ha quatro segmentos: 

1. O segmento de codigo. 

2. O segmento de dados. 

3. O segmento de pilha. 

4. O segmento extra. 

O segmento de codigo contem as instrugoes do programa. O conteudo do registrador PC e sempre inter- 
pretado como um enderego de memoria no segmento de codigo. Um valor de PC igual a 0 refere-se ao enderego 
mais baixo no segmento de codigo e nao ao enderego absoluto de memoria zero. O segmento de dados contem 
os dados inicializados e nao inicializados para o programa. Quando BX contem um ponteiro, ele aponta para 
esse segmento de dados. O segmento de pilha contem variaveis locais e resultados intermediaries passados para 
a pilha. Enderegos em SP e BP estao sempre nesse segmento de pilha. O segmento extra e um registrador de 
segmentos avulsos que pode ser colocado em qualquer lugar da memoria onde seja necessario. 

Para cada um dos segmentos existe um registrador de segmentos correspondente: os de 16 bits CS, DS, 
SS e ES. O enderego de inlcio de um segmento e o inteiro de 20 bits sem sinal que e construldo deslocando o 
registrador de segmentos 4 bits para a esquerda e colocando zeros nas quatro posigoes da extrema direita. Isso 
significa que esses registradores sempre indicam multiplos de 16, em um espago de enderegos de 20 bits. O 
registrador de segmentos aponta para a base do segmento. Enderegos dentro do segmento podem ser construl- 
dos convertendo-se o valor de 16 bits do registrador para seu verdadeiro enderego de 20 bits, acrescentando 
quatro bits zero ao final, e somando o deslocamento a esse resultado. Na verdade, um enderego absoluto de 
memoria e calculado multiplicando-se o registrador de segmentos por 16 e entao somando o deslocamento ao 
resultado. Por exemplo, se DS for igual a 7, e BX for 12, entao o enderego indicado por BX e 7 x 16 + 12 = 124. 
Em outras palavras, o enderego binario de 20 bits impllcito por DS = 7 e 00000000000001110000. Somar o 
deslocamento de 16 bits 0000000000001100 (decimal 12) a origem do segmento da o enderego de 20 bits 
00000000000001111100 (decimal 124). 
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Para toda referenda a memoria, um dos registradores de segmentos e usado para construir o enderego de 
memoria em si. Se alguma instrugao contiver um enderego direto sem referenda a um registrador, entao esse 
enderego esta automaticamente no segmento de dados e DS e usado para determinar a base do segmento. 
O enderego flsico e achado somando-se essa base com o enderego na instrugao. O enderego flsico na memoria 
do proximo codigo de instrugao e obtido deslocando o conteudo de CS por quatro casas binarias e somando o 
valor do contador de programa. Em outras palavras, o verdadeiro enderego de 20 bits impllcito pelo registrador 
CS de 16 bits e calculado antes e, em seguida, o PC de 16 bits e somado a ele para formar um enderego absoluto 
de memoria de 20 bits. 

O segmento de pilha e compos to por palavras de 2 bytes, portanto, o ponteiro de pilha, SP, deve sempre 
conter um numero par. A pilha e preenchida dos enderegos altos para os baixos. Assim, a instrugao PUSH dimi- 
nui o ponteiro de pilha em 2 e entao armazena o operando no enderego de memoria calculado a partir de SS e 
SP. O comando POP recupera o valor e incrementa SP em 2. Enderegos no segmento de pilha mais baixos que 
os indicados por SP sao considerados livres. Desse modo, a limpeza da pilha e conseguida apenas aumentando 
SP. Na pratica, DS e SS sao sempre iguais, portanto, um ponteiro de 16 bits pode ser usado para referenciar uma 
variavel no segmento compartilhado de dados/pilha. Se DS e SS fossem diferentes, seria preciso um decimo seti- 
mo bit em cada ponteiro para distinguir ponteiros para o segmento de dados daqueles para o segmento de pilha. 
Em retrospecto, ter um segmento de pilha separado provavelmente foi um erro. 

Caso prefira que os enderegos nos quatro registradores de segmentos fiquem bem distantes uns dos outros, 
entao os quatro segmentos serao disjuntos, mas, se a memoria disponlvel for restrita, isso nao e necessario. Apos 
a compilagao, o tamanho do codigo de programa e conhecido. Entao, e eficiente iniciar os segmentos de dados e 
pilha no primeiro multiplo de 16 apos a ultima instrugao. Isso pressupoe que os segmentos de codigo e dados nunca 
usarao os mesmos enderegos flsicos. 

C.3.2 Enderecamento 

Quase toda instrugao precisa de dados, sejam da memoria, sejam dos registradores. O 8088 tern uma colegao 
razoavelmente versatil de modos de enderegamento para dar nomes a esses dados. Muitas instrugoes contem 
dois operandos, em geral denominados de destino e de origem. Imagine, por exemplo, a instrugao de copia, ou 
a instrugao de adigao: 

MOV AX,BX 
ou 

ADD CX,20 

Nessas instrugoes, o primeiro operando e de destino e o segundo e de origem. (Qual deles vem em primeiro 
lugar e uma decisao arbitraria; tambem poderlamos ter invertido as posigoes.) Nem e preciso dizer que, nesse 
caso, o destino deve ser um valor autorizado, isto e, deve ser um lugar onde algo pode ser armazenado. Isso 
significa que constantes podem ser origens, mas nao destinos. 

Em seu projeto original, o 8088 requeria que ao menos um operando em uma instrugao de dois operandos 
fosse um registrador. Isso para que a diferenga entre instrugoes de palavras e instrugoes de bytes pudesse ser 
vista verificando se o registrador enderegado era um registrador de palavras ou um registrador de bytes. Na 
primeira versao do processador, essa ideia era imposta com tal rigor que era ate mesmo imposslvel colocar uma 
cons tan te na pilha, porque nem a origem nem o destino era um registrador naquela instrugao. Versoes posteriores 
eram menos rigorosas, mas, de qualquer modo, a ideia influenciou o projeto. Em alguns casos, um dos operandos 
nao e mencionado. Por exemplo, na instrugao MU LB, somente o registrador AX e poderoso o suficiente para agir 
como um destino. 

Tambem ha varias instrugoes de um so operando, como incrementos, deslocamentos, negagoes etc. Nesses 
casos, nao ha qualquer requisito de registrador e a diferenga entre as operagoes de palavras e bytes tern de ser 
deduzida apenas pelos opcodes (isto e, tipos de instrugao). 
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O 8088 suporta quatro tipos basicos de dados: byte de 1 byte, palavra de 2 bytes, longo de 4 bytes e deci¬ 
mal codificado em binario, no qual dois dlgitos decimals sao empacotados em uma palavra. O ultimo tipo nao e 
suportado pelo interpretador. 

Um enderego de memoria sempre referenda um byte, entretanto, no caso de uma palavra ou de um longo, os 
locais de memoria logo acima do byte indicado tambem sao implicitamente referenciados. A palavra em 20 esta 
nos locais de memoria 20 e 21. O longo no enderego 24 ocupa os enderegos 24, 25, 26 e 27. O 8088 e little-endian , 
o que significa que a parte de ordem baixa da palavra e armazenada no enderego mais baixo. No segmento de 
pilha, as palavras devem ser colocadas em enderegos pares. A combinagao AX DX, na qual AX contem a palavra 
de ordem baixa, e a unica provisao feita para longos nos registradores do processador. 

A tabela da Figura C.3 da uma visao geral dos modos de enderegamento do 8088. Vamos discuti-los bre- 
vemente agora. O primeiro bloco horizontal da parte superior da tabela relaciona os registradores. Eles podem 
ser usados como operandos em quase todas as instrugoes, tanto como origens, quanto como destinos. Ha oito 
registradores de palavras e oito registradores de bytes. 


Figura C .3 Modos de enderecamento de operandos. 0 simbolo # indica um valor numerico ou rotulo. 


Modo 

Operando 

Exemplos 

Enderegamento de registrador 

Registrador de bytes 

Registrador de palavras 

Registrador de bytes 

Registrador de palavras 

AH, AL, BH, BL, CH, CL, DH, DL 
AX, BX, CX, DX, SP, BP, SI, Dl 

Enderegamento de segmentos de dados 

Enderego direto 

Indireto de registrador 

Deslocamento de registrador 

Registrador com fndice 

Registrador com fndice e deslocamento 

Enderego vem apos opcode 

Enderego em registrador 

Enderego em registrador + desloc. 
Enderego e BX + SI/DI 

BX + SI Dl + deslocamento 

(#) 

(SI), (Dl), (BX) 

#(SI), #(DI), #(BX) 

(BX)(SI), (BX)(DI) 

#(BX)(SI), #(BX)(DI) 

Enderego de segmento de pilha 

Indireto de ponteiro de base 

Deslocamento de ponteiro de base 

Ponteiro de base com fndice 

Desloc. de fndice de ponteiro de base 

Enderego em registrador 

Enderego e BP + deslocamento 
Enderego e BP + SI/DI 

BP + SI/DI + deslocamento 

(BP) 

#(BP) 

(BP)(SI), (BP)(DI) 

#(BP)(SI), #(BP)(DI) 

Dados imediatos 

Byte/palavra imediato 

Dados sao parte da instrugao 

# 

Enderego implfcito 

Instrugao push/pop 

Flags de load/store 

Traduzir XL AT 

Instrugoes de cadeias repetidas 

Instrugoes de E/S 

Converte byte, palavra 

Enderego indireto (SP) 

Registrador de flag de status 

AL, BX 

(SI), (Dl), (CX) 

AX, AL 

AL, AX, DX 

PUSH, POP, PUSHF, POPF 

LAHF, STC, CLC, CMC 

XL AT 

MOVS, CMPS, SCAS 

IN #, OUT# 

CBW, CWD 


O segundo bloco horizontal, enderegamento de segmentos de dados, contem modos de enderegamento para 
o segmento de dados. Enderegos desse tipo sempre contem um par de parenteses, para indicar que o que se pre- 
tende representar e o conteudo do enderego e nao o valor. O modo mais facil de enderegamento desse tipo e o 
enderegamento direto, no qual o enderego de dados do operando esta na propria instrugao. Exemplo: 

ADD CX,(20) 
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no qual o conteudo da palavra de memoria nos enderegos 20 e 21 e somado a CX. Locais de memoria costumam 
ser representados por rotulos em vez de valores numericos na linguagem de montagem, e a conversao e feita em 
tempo de montagem. Ate mesmo em instrugoes CALL e JMP, o destino pode ser armazenado em uma localizagao 
de memoria enderegada por um rotulo. Os parenteses que cercam os rotulos sao essenciais (para o assembler que 
estamos usando) porque 

ADD CX,20 

tambem e uma instrugao valida, so que significa somar a constante 20 a CX, e nao o conteudo da palavra de 
memoria 20. Na Figura C.3, o slmbolo # e usado para indicar uma constante numerica, um rotulo ou uma expres- 
sao constante que envolva um rotulo. 

No enderegamento indireto de registrador, o enderego do operando e armazenado em um dos registradores 
BX, SI ou Dl. Nos tres casos, o operando e encontrado no segmento de dados. Tambem e possivel colocar uma 
constante na frente do registrador, caso em que o enderego e encontrado somando-se o registrador com a cons¬ 
tante. Esse tipo de enderegamento, denominado deslocamento de registrador, e conveniente para vetores. Se, 
por exemplo, SI contiver 5, entao o quin to caractere da cadeia no rotulo FORMAT pode ser carregado em AL por 

MOVB AL,FORMAT(SI) 

A cadeia inteira pode ser examinada incrementando ou decrementando o registrador em cada etapa. Quando sao 
usados operandos de palavra, o registrador deve ser alterado em dois a cada vez. 

Tambem e possivel colocar a base (isto e, o enderego numerico mais baixo) do vetor no registrador BX e 
reservar o registrador SI ou Dl para contagem. Isso e denominado enderegamento de registrador com indice. Por 
exemplo: 

PUSH (BX)(DI) 

busca o conteudo do local do segmento de dados cujo enderego e dado pela soma dos registradores BX e Dl. Em 
seguida, esse valor e passado para a pilha. Os dois ultimos tipos de enderego podem ser combinados para obter 
enderegamento de registrador com indice e deslocamento, como em 
NOT 20(BX)(DI) 

que complementa a palavra de memoria em BX + Dl + 20eBX + Dl + 21. 

Todos os modos de enderegamento direto no segmento de dados tambem existem para o segmento de pilha, 
caso em que e usado o ponteiro de base BP, em vez do registrador de base BX. Desse modo, (BP) e o unico modo 
de enderegamento de pilha indireto de registrador, mas existem outros modos mais complicados, ate indireto de 
ponteiro de base com indice e deslocamento -1(BP)(SI). Esses modos sao valiosos para enderegar variaveis locais 
e parametros de fungao, armazenados em enderegos de pilha em sub-rotinas. Esse arranjo e descrito com mais 
detalhes na Segao C.4.5. 

Todos os enderegos que obedecem aos modos de enderegamento discutidos ate agora podem ser usados 
como origens e destinos para operagoes. Eles sao definidos, em conjunto, como enderegos efetivos. Os modos de 
enderegamento nos dois blocos restantes nao podem ser usados como destinos e nao sao denominados enderegos 
efetivos. Eles so podem ser usados como origens. 

O modo de enderegamento no qual o operando e um valor constante de byte ou palavra na propria instrugao 
e denominado enderegamento imediato. Assim, por exemplo, 

CMP AX,50 

compara AX com a constante 50 e ajusta os bits no registrador de flags conforme os resultados. 

Por fim, algumas das instrugoes usam enderegamento implicito. Para essas instrugoes, o operando ou ope¬ 
randos estao impllcitos na propria instrugao. Por exemplo, a instrugao 

PUSH AX 

passa o conteudo de AX para a pilha decrementando SP e depois copiando AX para o local agora apontado por SP. 
Entretanto, SP nao e nomeado na instrugao em si; o simples falo de ser uma instrugao PUSH implica que SP e usado. 
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De forma semelhante, as instrugoes de manipulagao d e flags usam implicitamente o registrador de flags de status 
sem nomea-lo. Diversas outras instrugoes tambem tem operandos impllcitos. 

O 8088 tem instrugoes especiais para mover (MOVS), comparar (CMPS) e examinar (SCAS) cadeias de 
caracteres. Com essas instrugoes, os registradores de indices SI e Dl sao alterados automaticamente apos a ope- 
ragao. Esse comportamento e denominado modo de autoincremento ou de autodecremento. O flag de diregao 
no registrador de flags de status e que indica se SI e Dl sao incrementados ou decrementados. Um valor 0 no 
flag de diregao incrementa, enquanto um valor de 1 decrementa. A alteragao e 1 para instrugoes de byte e 2 para 
instrugoes de palavra. De certo modo, o ponteiro de pilha tambem e de autoincremento e autodecremento: ele e 
decrementado de 2 no inlcio de um PUSH e incrementado de 2 no final de um POP. 

C.4 0 conjunto de instrucoes do 8088 

O coragao de todo computador e o conjunto de instrugoes que ele pode executar. Para entender realmente 
um computador, e necessario compreender bem seu conjunto de instrugoes. Nas segoes seguintes, discutiremos 
as instrugoes mais importantes do 8088. Algumas delas sao mostradas na Figura C.4, na qual estao divididas em 
dez grupos. 

C.4.1 Mover, copiar, efetuar aritmetica 

O primeiro grupo de instrugoes sao as instrugoes para copiar e mover. De longe, a mais comum e a instrugao 
MOV, que tem uma origem explicita e um destino explicito. Se a origem for um registrador, o destino pode ser um 
enderego efetivo. Nessa tabela, um operando de registrador e indicado por um r e um enderego efetivo e indicado 
por um e, portanto, essa combinagao de operandos e denotada por e<— r. Essa e a primeira entrada para MOV na 
coluna Operandos. Uma vez que na sintaxe da instrugao o destino e o primeiro operando e a origem, o segundo 
operando, a seta <— e usada para indicar os operandos. Assim, e<— r significa que um registrador e copiado para 
um enderego efetivo. 

Na instrugao MOV, a origem tambem pode ser um enderego efetivo, e o destino, um registrador, o que sera 
indicado por r<—e, a segunda entrada da instrugao na coluna Operandos. A terceira possibilidade e dados imediatos 
como origem, e enderego efetivo como destino, o que resulta em e <—#. Na tabela, dados imediatos sao indicados 
pelo sinal (#). Visto que existem duas instrugoes, MOV para mover palavras e MOVB para mover bytes, o mnemo- 
nico da instrugao termina com um B entre parenteses. Dessa forma, a linha realmente representa seis instrugoes 
diferentes. 

Nenhum dosjlags no registrador de codigo de condigao e afetado por uma instrugao MOV, portanto, nas ulti¬ 
mas quatro colunas a entrada e Note que as instrugoes de movimento nao movem dados. Elas fazem copias, 
o que significa que a origem nao e modificada, como aconteceria com um movimento verdadeiro. 

A segunda instrugao na tabela e XCHG, que troca o conteudo de um registrador com o conteudo de um 
enderego efetivo. A tabela usa o slmbolo <-> para a troca. Nesse caso, existe uma versao para byte e tambem uma 
para palavra. Assim, a instrugao e indicada por XCHG e o campo Operando contem r<->e. A proxima instrugao e 
LEA, que quer dizer Load Effective Address (carregue enderego efetivo). Ela calcula o valor numerico do enderego 
efetivo e o armazena em um registrador. 

A seguir, vem PUSH, que passa seu operando para a pilha. O operando explicito pode ser uma constante (# 
na coluna Operandos ) ou um enderego efetivo (e na coluna Operandos). Ha tambem um operando impllcito, SP, 
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que nao e mencionado na sintaxe da instrugao. A tarefa da instrugao e decrementar SP em 2 e entao armazenar 
o operando no local agora apontado por SP. 

Depois vem POP, que remove um operando da pilha para um enderego efetivo. As duas instrugoes seguintes, 
PUSHF e POPF, tambem tern operandos impllcitos, enviando e retirando o registrador de flags, respectivamente. Esse 
tambem e o caso de XLAT, que carrega o registrador de byte AL a partir do enderego calculado por AL + BX. Essa ins¬ 
trugao permite consulta rapida em tabelas de 256 bytes de tamanho. 

As instrugoes IN e OUT foram definidas oficialmente no 8088, mas nao foram implementadas no interpreta- 
dor (e, por isso, nao estao relacionadas na Figura C.4). Na verdade, sao instrugoes para mover de e para um dis- 
positivo de E/S. O enderego implicito e sempre o registrador AX, e o segundo operando na instrugao e o numero 
de porta do registrador de dispositivo desejado. 

No segundo bloco da Figura C.4 estao as instrugoes de adigao e subtragao. Cada uma delas tern as mesmas 
tres combinagoes de operandos de MOV: enderego efetivo para registrador, registrador para enderego efetivo e 
constante para enderego efetivo. Assim, a coluna Operandos da tabela contem r<—e , e<— r e e<— #. Em todas essas 
quatro instrugoes, o flag de excesso, O, o flag de sinal, S, o flag de zero, Z, e o flag de vai-um, C, sao todos 
ajustados com base no resultado da instrugao. Isso significa, por exemplo, que O e marcado se o resultado nao 
puder ser expresso corretamente no numero permitido de bits e desmarcado se puder. Quando o maior numero 
de 16 bits, 0x7fff (32.767 em decimal), for somado com ele mesmo, o resultado nao pode ser expresso como 
um numero de 16 bits com sinal, portanto, O e marcado para indicar o erro. Coisas semelhantes acontecem 
com os outros flags de status nessas operagoes. Se uma instrugao causar algum efeito sobre um flag de status, 
isso e indicado por um asterisco (*) na coluna correspondente. Nas instrugoes ADC e SBB, o flag de vai-um 
no inlcio da operagao e usado como 1 (ou 0) extra, que e visto como um vai-um ou emprestimo da operagao 
anterior. Essa facilidade e de especial utilidade para representar inteiros de 32 bits ou mais longos em varias 
palavras. Tambem existem versoes de bytes para todas as adigoes e subtragoes. 

O bloco seguinte contem as instrugoes de multiplicagao e divisao. Operandos inteiros com sinal reque- 
rem as instrugoes IMUL e IDIV; os sem sinal usam MUL e DIV. A combinagao de registradores AH : AL e o des- 
tino implicito na versao de byte dessas instrugoes. Na versao de palavra, o destino implicito e a combinagao 
de registradores AX : DX. Mesmo que o resultado da multiplicagao seja so uma palavra ou um byte, o regis¬ 
trador DX ou AH e reescrito durante a operagao. A multiplicagao sempre e posslvel porque o destino contem 
bits suficientes. Os bits de excesso e vai-um sao ajustados quando o produto nao puder ser representado em 
uma so palavra, ou em um so byte. Os flags de zero e de negativo sao indefinidos apos uma multiplicagao. 

A divisao tambem usa as combinagoes DX : AX ou AH : AL como o destino. O quociente vai para AX ou AL 
e o resto para DX ou AH. Todos os quatro flags (vai-um, excesso, zero e negativo) sao indefinidos apos uma ope¬ 
ragao de divisao. Se o divisor for 0, ou se o quociente nao couber no registrador, a operagao executa uma exce- 
gao, que interrompe o programa a menos que esteja presente uma rotina de tratador de excegao. Ademais, e 
sensato tratar sinais de menos em software antes e depois da divisao porque, na definigao do 8088, o sinal 
do resto e igual ao sinal do dividendo, ao passo que em matematica, um resto e sempre nao negativo. 

As instrugoes para decimals em codigo binario, entre as quais Ascii Adjust for Addition (AAA) (ajuste Ascii 
para adigao) e Decimal Adjust for Addition (DAA) (ajuste decimal para adigao), nao sao executadas pelo interpre- 
tador e nao sao mostradas na Figura C.4. 
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Figura C.4 


Algumas das instrucoes mais importantes do 8088. 


Mnemonico Descricao Operandos -,——-.-,- 

O S Z 0 


MOV(B) 

Mover palavra, byte 

r<—e, e<—r, e<—# 

- 

- 

- 

- 

XCHG(B) 

Trocar palavra 

r<->e 

- 

- 

- 

- 

LEA 

Carregar enderego efetivo 

r<—#e 

- 

- 

- 

- 

PUSH 

Passar para pilha 

e, # 

- 

- 

- 

- 

POP 

Retirar da pilha 

e 

- 

- 

- 

- 

PUSHF 

Passar flags para pilha 

- 

- 

- 

- 

- 

POPF 

Retirar flags da pilha 

- 

- 

- 

- 

- 

XL AT 

Traduzir AL 

- 

- 

- 

- 

- 

ADD(B) 

Somar palavra 

r<—e, e<—r, e<—# 

* 

* 

* 

* 

ADC(B) 

Somar palavra com vai-um 

r<—e, e<—r, e<—# 

* 

* 

* 

* 

SUB(B) 

Subtrair palavra 

t 

CD 

CD 

t 

CD 

t 

=H= 

* 

* 

* 

* 

SBB(B) 

Subtrair palavra com emprestimo 

=H= 

1 

CD 

T 

CD 

CD~ 

i 

* 

* 

* 

* 

IMUL(B) 

Multiplicar com sinal 

e 

* 

u 

u 

* 

MUL(B) 

Multiplicar sem sinal 

e 

* 

u 

u 

* 

IDIV(B) 

Dividir com sinal 

e 

U 

u 

u 

u 

DIV(B) 

Dividir sem sinal 

e 

U 

u 

u 

u 

CBW 

Estender byte/palavra com sinal 

- 

- 

- 

- 

- 

CWD 

Estender palavra/dupla com sinal 

- 

- 

- 

- 

- 

NEG(B) 

Negar binario 

e 

* 

* 

* 

* 

NOT(B) 

Complemento logico 

e 

- 

- 

- 

- 

INC(B) 

Incrementar destino 

e 

* 

* 

* 

- 

DEC(B) 

Decrementar destino 

e 

* 

* 

* 

- 

AND(B) 

AND logico 

e<— r, r<— e, e<—# 

0 

* 

* 

0 

OR(B) 

OR logico 

e<—r, r<— e, e<—# 

0 

* 

* 

0 

XOR(B) 

EXCLUSIVE OR logico 

e<—r, r<—e, e<—# 

0 

* 

* 

0 

SHR(B) 

Deslocamento logico para a direita 

e<—1, e<—CL 

* 

* 

* 

* 

SAR(B) 

Deslocamento aritmetico para a direita 

e<-1, e<-CL 

* 

* 

* 

* 

SAL(B) (=SHL(B)) 

Deslocar para a esquerda 

e<—1, e<—CL 

* 

* 

* 

* 

ROL(B) 

Fazer rotagao para a esquerda 

e<—1, e<—CL 

* 

- 

- 

* 

ROR(B) 

Fazer rotagao para a direita 

e<—1, e<-CL 

* 

- 

- 

* 

RCL(B) 

Fazer rotagao para a esquerda com vai-um 

e<—1, e<—CL 

* 

- 

- 

* 

RCR(B) 

Fazer rotagao para a direita com vai-um 

e<—1, e<—CL 

* 

- 

- 

* 

TEST(B) 

Testar operandos 

e<->r, e<-+# 

0 

* 

* 

0 

CMP(B) 

Comparar operandos 

e<-^r, e<-># 

* 

* 

* 

* 

STD 

Ajustar flag de diregao (|) 

- 

- 

- 

- 

- 

CLD 

Liberar flag de diregao (t) 

- 

- 

- 

- 

- 

STC 

Ajustar flag de vai-um 

- 

- 

- 

- 

1 

CLC 

Liberar flag de vai-um 

- 

- 

- 

- 

0 

CMC 

Complementar vai-um 

- 

- 

- 

- 

* 

LOOP 

Saltar para tras se CX > 0 decrementado 

rotulo 

- 

- 

- 

- 

LOOPZ LOOPE 

Para tras se Z = 1 e DEC(CX) > 0 

rotulo 

- 

- 

- 

- 

LOOPNZLOOPNE 

Para tras se Z = 0 e DEC(CX) > 0 

rotulo 

- 

- 

- 

- 

REP REPZ REPNZ 

Repetir instrugao de cadeia 

instrugao de cadeia 

- 

- 

- 

- 

MOVS(B) 

Mover cadeia de palavra 

- 

- 

- 

- 

- 

LODS(B) 

Carregar cadeia de palavra 

- 

- 

- 

- 

- 

STOS(B) 

Armazenar cadeia de palavra 

- 

- 

- 

- 

- 

SCAS(B) 

Examinar cadeia de palavra 

- 

* 

* 

* 

* 

CMPS(B) 

Comparar cadeia de palavra 

- 

* 

* 

* 

* 

JCC 

Saltar conforme condigoes 

rotulo 

- 

- 

- 

- 

JMP 

Saltar para rotulo 

e, rotulo 

- 

- 

- 

- 

CALL 

Saltar para sub-rotina 

e, rotulo 

- 

- 

- 

- 

RET 

Retornar de sub-rotina 

# 

- 

- 

- 

- 

SYS 

Excegao de chamada de sistema 

- 

- 

- 

- 

- 























Apendice C • Programacao em linguagem de montagem 


555 


C.4.2 Operates logicas, de bit e de deslocamento 

O proximo bloco contem instrugoes para extensao de sinal, negagao, complemento logico, incremento e 
decremento. As operagoes de extensao de sinal nao tem nenhum operando explicito, mas agem sobre as com- 
binagoes de registradores DX : AX ou AH : AL. O operando unico para as outras operagoes desse grupo pode ser 
achado em qualquer enderego efetivo. Os flags sao afetados do modo esperado nos casos de NEG, INC e DEC, 
exceto que o vai-um nao e afetado no incremento e decremento, o que e algo bastante inesperado e que alguns 
consideram como um erro de projeto. 

O bloco de instrugoes seguinte e o grupo logico de dois operandos cujas instrugoes se comportam como 
esperado. No grupo de deslocamento e rotagao, todas as operagoes tem um enderego efetivo como seu destino, mas 
a origem e o registrador de bytes CL ou o numero 1. Nos deslocamentos, todos os quatro JIags sao afetados; nas rota- 
goes, somente o vai-um e o excesso sao afetados. O vai-um sempre obtem o bit que e deslocado ou que sai, na rotagao, 
do bit de ordem alta ou de ordem baixa, dependendo da diregao do deslocamento ou da rotagao. Nas rotagoes com 
vai-um, RCR, RCL, RCRB e RCLB, o vai-um, junto com o operando no enderego efetivo, constituem uma combi- 
nagao de registradores de deslocamento circular de 17 bits ou de 9 bits, que facilita deslocamentos e rotagoes de 
multiplas palavras. 

O proximo bloco de instrugoes e usado para manipular os bits de flag. A principal razao para isso e preparar 
para saltos condicionais. A seta dupla (<->) e usada em operagoes de comparagao e teste para indicar os dois ope¬ 
randos, que nao mudam durante a operagao. Na operagao TEST, o AND logico dos operandos e calculado para 
ajustar ou liberar o flag de zero e o de sinal. O valor calculado nao e armazenado em nenhum lugar e o operando 
nao e modificado. Na CMP, a diferenga entre os operandos e calculada e todos os quatro Jlags sao marcados ou 
liberados como resultado da comparagao. O flag de diregao, que determina se os registradores SI e Dl devem ser 
incrementados ou decrementados nas instrugoes de cadeia, pode ser ajustado ou liberado por STD e CLD, res- 
pectivamente. 

O 8088 tambem tem um flag de paridade e um flag auxiliar de vai-um. O flag de paridade da a paridade 
do resultado (par ou Impar). O flag auxiliar verifica se houve excesso no meio byte (4 bits) de ordem baixa do 
destino. Tambem ha instrugoes LAHF e SAHF, que copiam o byte de ordem baixa do registrador d e flag em AH 
e vice-versa. O flag de excesso esta no byte de ordem alta do registrador de codigo de condigao e nao e copiado 
nessas instrugoes. Essas instrugoes e flags sao usadas principalmente para compatibilidade com os processadores 
8080 e 8085. 

C.4.3 Operates de laco e cadeias repetitivas 

O bloco seguinte contem as instrugoes para executar lagos. A instrugao LOOP decrementa o registrador 
CX e salta para tras ate o rotulo indicado se o resultado for positivo. As instrugoes LOOPZ, LOOPE, LOOPNZ e 
LOOPNE tambem testam o flag de zero para ver se o lago deve ser abortado antes de CX ser 0. 

O destino de todas as instrugoes LOOP deve estar dentro de 128 bytes em relagao a posigao corrente do con- 
tador de programa porque a instrugao contem um deslocamento de 8 bits com sinal. A quantidade de instrugoes 
(em comparagao com bytes) que podem ser saltadas nao pode ser calculada com exatidao, pois instrugoes diferen- 
tes tem comprimentos diferentes. Em geral, o primeiro byte define o tipo de uma instrugao e, portanto, algumas 
delas precisam so de um byte no segmento de codigo. Muitas vezes, o segundo byte e utilizado para definir os 
registradores e modos de registradores da instrugao e, se estas contiverem deslocamentos ou dados imediatos, 
o comprimento da instrugao pode aumentar ate quatro ou seis bytes. O comprimento medio da instrugao e de 
cerca de 2,5 bytes por instrugao, portanto, LOOP nao pode saltar para tras mais do que cerca de 50 instrugoes. 

Tambem existem alguns mecanismos especiais para lagos em instrugoes de cadeia. Eles sao REP, REPZ e 
REPNZ. De modo semelhante, todas as cinco instrugoes de cadeia no proximo bloco da Figura C.4 tem enderegos 
impllcitos e todas usam modo autoincremento ou modo autodecremento nos registradores de indices. Em todas 
essas instrugoes, o registrador SI aponta para dentro do segmento de dados, mas o registrador Dl referencia o 
segmento extra, que e baseado em ES. Junto com a instrugao REP, a MOVSB pode ser usada para mover cadeias 
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completas em uma instrugao. O comprimento da cadeia esta contido no registrador CX. Uma vez que a instrugao 
MOVSB nao afeta os flags, nao e posslvel verificar um byte zero ASCII durante a operagao de copia por meio da 
REPNZ, mas isso pode ser consertado usando-se primeiro uma REPNZ SCASB para obter um valor logico 
em CX e, mais tarde, uma REP MOVSB. Esse ponto sera ilustrado pelo exemplo de copia de cadeia na Segao C.8. 
Em todas essas instrugoes, e preciso dar atengao extra ao registrador de segmentos ES, a menos que ES e DS 
tenham o mesmo valor. No interpretador e usado um modelo de memoria pequena, de modo que ES = DS = SS. 

C.4.4 Instrucoes Jump e Call 

O ultimo bloco trata de saltos condicionais e incondicionais, chamadas de sub-rotina e retornos. Aqui, a ope¬ 
ragao mais simples e a JMP. Ela pode ter um rotulo como destino ou o conteudo de qualquer enderego efetivo. E 
feita uma distingao entre um salto proximo e um salto distante. Em um salto proximo, o destino esta no segmen- 
to de codigo corrente, que nao muda durante a operagao. No distante, o registrador CS e alterado durante o salto. 
Na versao direta com um rotulo, o novo valor do registrador de segmento de codigo e fornecido na chamada apos 
o rotulo; na versao com enderego efetivo, um longo e buscado na memoria, tal que a palavra baixa corresponda 
ao rotulo de destino e a palavra alta ao novo valor do registrador de segmento de codigo. 

E claro que nao e surpresa que tal distingao exista. Para saltar para um enderego arbitrario dentro de um 
espago de enderego de 20 bits, e preciso fazer alguma provisao para especificar mais que 16 bits. O modo de fazer 
isso e dar novos valores para CS e PC. 

• Saltos condicionais 

O 8088 tern 15 saltos condicionais e alguns deles tern dois nomes (por exemplo, JUMP GREATER OR EQUAL 
e a mesma instrugao que JUMP NOT LESS THAN). Eles estao relacionados na Figura C.5. Todos eles so permitem 
saltos em uma distancia de ate 128 bytes da instrugao. Se o destino nao estiver dentro dessa faixa, e preciso usar 
uma construgao de salto sobre salto. Nela, e usado o salto com a condigao oposta para saltar sobre a proxima 
instrugao. Se esta contiver um salto incondicional para o destino pretendido, entao o efeito das duas instrugoes e 
apenas um salto de alcance maior do que o tipo pretendido. Por exemplo, em vez de 

JB FARLABEL 

temos 

JNA 1 :f 

JMP FARLABEL 

1 : 

Em outras palavras, se nao for posslvel fazer JUMP BELOW, entao e colocada uma JUMP NOT ABOVE em 
um rotulo 1 que esteja perto, seguida por um salto incondicional ate FARLABEL. O efeito e o mesmo, com um 
custo um pouco mais alto em tempo e espago. O assembler gera esses saltos sobre saltos automaticamente quando 
se espera que o destino esteja muito distante. Fazer esse calculo corretamente e um pouco complicado. Suponha 
que a distancia esteja proxima do limite, mas algumas das instrugoes intervenientes tambem sejam saltos condi¬ 
cionais. O mais externo nao pode ser resolvido ate que os tamanhos dos internos sejam conhecidos e assim por 
diante. Por seguranga, o assembler erra em favor da precaugao. As vezes, gera um salto sobre salto quando nao 
e estritamente necessario. So gera um salto condicional dire to quando tiver certeza absoluta de que o alvo esta 
dentro da faixa. 

A maioria dos saltos condicionais depende dos flags de status e e precedida por uma instrugao de teste ou 
comparagao. A instrugao CMP subtrai o operando de origem do operando de destino, ajusta os codigos de condi¬ 
gao e descarta o resultado. Nenhum dos operandos e alterado. Se o resultado for zero ou seu bit de sinal estiver 
ligado (isto e, se for negativo), o bit de flag correspondente e marcado. Se o resultado nao puder ser expresso no 
numero permitido de bits, o flag de excesso e marcado. Se houver um vai-um no bit de ordem alta, o flag de vai- 
-um e marcado. Os saltos condicionais podem testar todos esses bits. 
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Figura C.5 Saltos condicionais. 


Instrugao 

Descricao 

Quando saltar 

JNA, JBE 

Abaixo ou igual 

CF = 1 ou ZF = 1 

JNB, JAE, JNC 

Nao abaixo de 

o 

ii 

LL 

O 

JE, JZ 

Zero, igual 

ZF = 1 

JNLE, JG 

Maior que 

SF = OF e ZF = 0 

JGE, JNL 

Maior que ou igual a 

LL 

O 

II 

LL 

CO 

JO 

Excesso 

II 

LL 

O 

JS 

Sinal negativo 

SF = 1 

JCXZ 

CX e zero 

O 

X 

II 

o 

JB, JNAE, JC 

Abaixo 

CF = 1 

JNBE, JA 

Acima 

CF = 0 & ZF = 0 

JNE, JNZ 

Nao zero, nao igual 

o 

ii 

LL 

N 

JL, JNGE 

Menor que 

SF * OF 

JLE, JNG 

Menor que ou igual a 

SF * OF ou ZF = 1 

JNO 

Nao excesso 

o 

ii 

LL 

O 

JNS 

Nao negativo 

O 

II 

LL 

CO 


Se os operandos forem considerados operandos com sinal, devem ser utilizadas as instrugoes que usam 
GREATER THAN e LESS THAN. Se forem sem sinal, devem ser utilizadas as que usam ABOVE e BELOW. 

C.4.5 Chamadas de sub-rotina 

O 8088 tern uma instrugao usada para chamar procedimentos, geralmente conhecidos em linguagem de 
montagem como sub-rotinas. Do mesmo modo que em instrugoes de salto, existem instrugoes de chamada pro- 
xima e instrugoes de chamada distante. No interpretador e executada somente a chamada proxima. O destino e 
um rotulo ou pode ser encontrado em um enderego efetivo. Parametros necessarios para as sub-rotinas tern de 
ser passados para a pilha em primeiro lugar na ordem inversa, como ilustrado na Figura C.6. Em linguagem 
de montagem, os parametros costumam ser denominados argumentos, mas os termos sao intercambiaveis. Apos 
essas passagens, a instrugao CALL e executada. A instrugao comega passando o contador de programa corrente 
para a pilha. Desse modo, o enderego de retorno e salvo. O enderego de retorno e aquele no qual a execugao da 
rotina chamadora tern de prosseguir quando a sub-rotina retornar. 
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A_ 

Figura C.6 Um exemplo de pilha. 

BP+8 





BP+6 

Argumento 2 




BP+4 

Argumento 1 




BP+2 

Enderego de retorno 




BP 

BP antigo 

<- BP 



BP-2 

Variavel local 1 




BP-4 

Variavel local 2 




BP-6 

Variavel local 3 




BP-8 

Resultado temporario 

^SP 






-• 


Em seguida, o novo contador de programa e carregado a partir do rotulo, ou do enderego efetivo. Se a cha- 
mada for distante, entao o registrador CS e passado para a pilha antes do PC e ambos, o contador de programa e 
o registrador de segmento de codigo, sao carregados a partir de dados imediatos ou a partir do enderego efetivo. 
Isso conclui a instrugao CALL. 

A instrugao de retorno, RET, apenas retira o enderego de retorno da pilha, armazena-o no contador de progra¬ 
ma e o programa continua na instrugao imediatamente apos a instrugao CALL. As vezes, a instrugao RET contem 
um numero positivo como dados imediatos. Admite-se que esse numero seja o numero de bytes dos argumentos 
que foram passados para a pilha antes da chamada; ele e adicionado a SP para limpar a pilha. Na variante distante, 
RETF, o registrador de segmento de codigo e retirado depois do contador de programa, como seria de se esperar. 

Dentro da sub-rotina, os argumentos precisam estar acesslveis. Portanto, a sub-rotina muitas vezes inicia 
passando para a pilha o ponteiro de base e copiando o valor corrente de SP para BP. Isso significa que o ponteiro 
de base aponta para seu valor anterior. Agora, o enderego de retorno esta em BP + 2 e o primeiro e segundo argu¬ 
mentos podem ser encontrados nos enderegos efetivos BP + 4 e BP + 6. Se o procedimento precisar de variaveis 
locais, entao o numero requerido de bytes pode ser subtraldo do ponteiro de pilha e essas variaveis podem ser 
enderegadas a partir do ponteiro de base com deslocamentos negativos. No exemplo da Figura C.6, ha tres varia¬ 
veis locais de palavra unica localizadas em BP - 2, BP - 4 e BP - 6, respectivamente. Desse modo, todo o conjunto 
de argumentos correntes e variaveis locais pode ser alcangado por meio do registrador BP. 

A pilha e usada do modo comum para salvar resultados intermediarios ou para preparar argumentos para a 
proxima chamada. Sem calcular a quantidade de pilha usada na sub-rotina, ela pode ser restaurada antes do retorno 
copiando o ponteiro de base para o ponteiro de pilha, retirando o BP antigo e, por fim, executando a instrugao RET. 

Durante uma chamada de sub-rotina, os valores dos registradores de processador as vezes mudam. E boa 
pratica usar algum tipo de convengao tal que a rotina que esta chamando nao precise estar ciente dos registradores 
usados pela rotina que foi chamada. O modo mais simples de fazer isso e usar as mesmas convengoes para cha- 
madas de sistema e sub-rotinas normais. Admite-se que AX e DX possam mudar na rotina chamada. Se um desses 
registradores contiver informagoes valiosas, entao e aconselhavel que a rotina que esta chamando os coloque na 
pilha antes de passar os argumentos. Se a sub-rotina tambem usar outros registradores, estes podem ser passados 
para a pilha imediatamente no inlcio da sub-rotina e retirados antes da instrugao RET. Em outras palavras, uma 
boa convengao e a rotina que chama salvar AX e DX se eles contiverem algo de importante e a rotina chamada 
salvar quaisquer outros registradores que ela sobrescrever. 

C.4.6 Chamadas de sistema e sub-rotinas de sistema 

Para separar as tarefas de abrir, fechar, ler e escrever arquivos da programagao de montagem, programas sao exe- 
cutados em um sistema operacional. Para permitir que o interpretador execute em multiplas plataformas, um conjunto 
de sete chamadas de sistema e cinco fungoes e suportado pelo interpretador. Elas estao relacionadas na Figura C.7. 
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Figura C.7 Algumas chamadas de sistema e sub-rotinas UNIX disponiveis no interpretador. 


No. 

Nome 

Argumentos 

Valor de retorno 

Descrigao 

5 

_OPEN 

*name, 0/1/2 

descritor de arquivo 

Abra arquivo 

8 

_CREAT 

*name, *mode 

descritor de arquivo 

Crie arquivo 

3 

_READ 

fd, buf, nbytes 

# bytes 

Leia nbytes para buffer buf 

4 

_WRITE 

fd, buf, nbytes 

# bytes 

Escreva nbytes a partir de buffer buf 

6 

.CLOSE 

fd 

0 para sucesso 

Feche arquivo com fd 

19 

_LSEEK 

fd, offset(long), 0/1/2 

posigao (longo) 

Mova ponteiro de arquivo 

1 

.EXIT 

status 


Feche arquivos e pare processo 

117 

.GETCHAR 


leia caractere 

Leia caractere da entrada-padrao 

122 

.PUTCHAR 

char 

escreva byte 

Escreva caractere para safda-padrao 

127 

.PRINTF 

*format, arg 


Imprima formatado na safda-padrao 

121 

.SPRINTF 

buf, *format, arg 


Imprima formatado em buffer buf 

125 

.SSCANF 

buf, *format, arg 


Leia argumentos de buffer buf 


Essas doze rotinas podem ser ativadas pela sequencia de chamada-padrao; primeiro, passe os argumentos 
necessarios para a pilha em ordem inversa, entao passe o numero da chamada e, por fim, execute a instrugao de 
excegao de sistema SYS sem operandos. A rotina de sistema encontra todas as informagoes necessarias na pilha, 
incluindo o numero da chamada do servigo de sistema requerido. Valores de retorno sao colocados no registrador 
AX, ou na combinagao de registradores DX : AX (quando o valor de retorno for um longo). 

E garantido que todos os outros registradores manterao seus valores na instrugao SYS. Alem disso, os argu¬ 
mentos ainda estarao na pilha apos a chamada. Visto que eles nao sao mais necessarios, o ponteiro de pilha deve 
ser ajustado apos a chamada (pela instrugao que chama), a menos que sejam necessarios para uma chamada 
subsequente. 

Por conveniencia, os nomes das chamadas de sistema podem ser definidos como constantes no inlcio do pro- 
grama assembler, de modo que elas possam ser chamadas pelo nome em vez de pelo numero. Nos exemplos, serao 
discutidas varias chamadas de sistema, portanto, nesta segao, daremos somente um mlnimo necessario de detalhes. 

Nessas chamadas de sistema, arquivos sao abertos pela chamada OPEN ou pela CREAT. Em ambos os casos, o 
primeiro argumento e o enderego do inlcio de uma cadeia que contem o nome do arquivo. O segundo argumento 
na chamada OPEN e 0 (caso o arquivo deva ser aberto para leitura), 1 (caso deva ser aberto para escrita) ou 2 
(para ambos). Se o arquivo precisar permitir escritas e ainda nao existir, ele e criado pela chamada. Na chamada 
CREAT, e criado um arquivo vazio, com permissao ajustada de acordo com o segundo argumento. Ambas as cha¬ 
madas, OPEN e CREAT, retornam um inteiro pequeno no registrador AX, que e denominado descritor de arquivo 
e que pode ser usado para ler, escrever e fechar o arquivo. Um valor de retorno negativo significa que a chamada 
falhou. No inlcio do programa, tres arquivos ja estao abertos com descritores de arquivo: 0 para entrada-padrao, 
1 para salda-padrao e 2 para salda de erro-padrao. 

As chamadas READ e WRITE tern tres argumentos: o descritor de arquivo, um buffer para conter os dados e o 
numero de bytes a transferir. Uma vez que os argumentos sao empilhados em ordem inversa, primeiro passamos 
o numero de bytes, depois o enderego do inlcio do buffer, em seguida o descritor de arquivo e, por fim, o nume¬ 
ro da chamada (READ ou WRITE). Essa ordem de empilhamento dos argumentos foi escolhida para ser igual a 
sequencia de chamada padrao em linguagem C, na qual 

read(fd, buffer, bytes); 

e implementada passando-se os parametros na ordem bytes, buffer e, por fim ,fd. 

A chamada CLOSE requer apenas o descritor de arquivo e retorna 0 em AX se o fechamento do arquivo foi 
bem-sucedido. A chamada EXIT requer o status de salda na pilha e nao retorna. 
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A chamada LSEEK altera o ponteiro de leitura/escrita em um arquivo aberto. O primeiro argumento e o 
descritor de arquivo. Vis to que o segundo argumento e um longo, a palavra de ordem alta deve ser passada para a 
pilha primeiro e, em seguida, a de ordem baixa, mesmo quando o deslocamento couber em uma palavra. O terceiro 
argumento indica se o novo ponteiro de leitura/escrita deve ser calculado em relagao ao inlcio do arquivo (caso 0), 
a posigao atual (caso 1), ou em relagao ao final do arquivo (caso 2). O valor de retorno e a nova posigao do ponteiro 
em relagao ao inlcio de um arquivo e pode ser encontrado como um longo na combinagao de registradores DX : AX. 

Agora, chegamos as fungoes que nao sao chamadas de sistema. A fungao GETCHAR le um caractere da entrada- 
-padrao e o coloca em AL, sendo AH definido como zero. Caso falhe, AX e definida como -1. A chamada PUTCHAR 
escreve um byte na salda-padrao. O valor de retorno para uma escrita bem-sucedida e o byte escrito; para uma 
falha, e -1. 

A chamada PRINTF produz salda de informagao formatada. O primeiro argumento para a chamada e o endere- 
go de uma cadeia de formato que informa como forma tar a salda. A sequencia “%d” indica que o proximo argumen¬ 
to e um inteiro na pilha, que e convertido a notagao decimal quando impresso. Do mesmo modo, “%x” converte 
para hexadecimal e “%o” converte para octal. Alem do mais, “%s” indica que o proximo argumento e uma cadeia 
que termina em nulo, que e passada para a chamada por meio de um enderego de memoria na pilha. O numero 
de argumentos extras na pilha deve combinar com o numero de indicagoes de conversao na cadeia de formato. 

Por exemplo, a chamada 

printf (“x = %d and y = %d\n”, x, y); 

imprime a cadeia com os valores numericos de x e y substituldos no lugar das sequencias “%d” na cadeia de 
formato. Mais uma vez, por compatibilidade com C, a ordem na qual os argumentos sao passados e “y”, “x” e, 
por fim, o enderego da cadeia de formato. A razao para essa convengao e que printf tern um numero variavel de 
parametros e, passando-os na ordem inversa, a cadeia de formato em si e sempre a ultima e, portanto, pode ser 
localizada. Se os parametros fossem passados da esquerda para a direita, a cadeia de formato estaria perdida na 
pilha e o procedimento printf nao saberia onde encontra-la. 

Na chamada PRINTF, o primeiro argumento e o buffer, para receber a cadeia de salda, em vez da salda- 
-padrao. Os outros argumentos sao os mesmos que em PRINTF. A chamada SSCANF e o inverso da PRINTF no 
mesmo sentido de que o primeiro argumento e uma cadeia, que pode conter inteiros em notagao decimal, octal ou 
hexadecimal, e o proximo e a cadeia de formato, que contem as indicagoes de conversao. Os outros argumentos 
sao enderegos de palavras de memoria para receber as informagoes convertidas. Essas sub-rotinas de sistema sao 
muito versateis e um tratamento completo das possibilidades estaria muito alem do escopo deste apendice. Na 
Segao C.8, diversos exemplos mostram como elas podem ser usadas em diferentes situagoes. 

C.4.7 Observacoes finais sobre o conjunto de instrucoes 

Na definigao oficial do 8088, existe um prefixo de alteragao de segmento que facilita a possibilidade de usar 
enderegos efetivos de um segmento diferente; is to e, o primeiro enderego de memoria apos a alteragao e calculado 
usando o registrador do segmento indicado. Por exemplo, a instrugao 

ESEG MOV DX,(BX) 

primeiro calcula o enderego de BX usando o segmento extra e, entao, move o conteudo para DX. Contudo, o seg¬ 
mento de pilha, no caso dos enderegos que usam SP, e o segmento extra, no caso de cadeias de instrugoes com 
o registrador Dl, nao podem ser sobrepostos. Os registradores de segmentos SS, DS e ES podem ser usados na 
instrugao MOV, mas e imposslvel mover dados imediatos para um registrador de segmentos, e esses registradores 
nao podem ser usados em uma operagao XCHG. A programagao com mudanga de registradores de segmentos 
e sobreposigoes ( overrides ) e bastante complicada, e deve ser evitada sempre que posslvel. O interpretador usa 
registradores de segmentos fixos, portanto, nesse caso, nao ha problemas. 

Instrugoes de ponto flutuante estao disponlveis na maioria dos computadores, as vezes diretamente no pro- 
cessador, as vezes em um coprocessador separado e, as vezes, apenas interpretadas no software por meio de um 
tipo especial de excegao de ponto flutuante. A discussao dessas caracterlsticas esta fora do escopo deste apendice. 
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C.5 0 assembler 

Agora, ja terminamos nossa discussao da arquitetura do 8088. O proximo topico e o software usado para 
programar o 8088 em linguagem de montagem, em particular as ferramentas que fornecemos para aprender pro- 
gramagao nessa linguagem. Primeiro, discutiremos o assembler , depois o rastreador e, em seguida, passamos 
para algumas informagoes praticas para sua utilizagao. 

C.5.1 Introduce 

Ate agora, nos referimos as instrugoes por seus mnemonicos, isto e, por nomes simbolicos faceis de lembrar 
como ADD e CMP. Registradores tambem foram denominados por nomes simbolicos, como AX e BP. Um progra- 
ma escrito usando nomes simbolicos para instrugoes e registradores e denominado programa em linguagem de 
montagem. Para executar tal programa, e necessario primeiro traduzi-lo para os numeros binarios que a CPU de 
fa to entende. O programa que converte um programa em linguagem de montagem para numeros binarios e um 
assembler. A salda do assembler e denominada arquivo-objeto. Muitos programas fazem chamadas as sub-rotinas 
ja montadas e armazenadas em bibliotecas. Para executa-los, o arquivo-objeto recem-montado e as sub-rotinas de 
biblioteca que ele usa (tambem arquivos-objeto) devem ser combinados em um unico arquivo binario executavel, 
por meio de outro programa denominado ligador (linker). So quando o ligador tiver montado o arquivo binario 
executavel a partir de um ou mais arquivos-objeto e que a tradugao esta conclulda por inteiro. Entao, o sistema 
operacional pode ler o arquivo binario executavel para a memoria e executa-lo. 

A primeira tarefa do assembler e montar uma tabela de slmbolos, que e usada para mapear os nomes de 
constantes simbolicas e rotulos para os numeros binarios que eles representam. Constantes que sao definidas 
diretamente no programa podem ser colocadas na tabela de slmbolos sem nenhum processamento. Esse trabalho 
e feito em uma passagem. 

Rotulos representam enderegos cujos valores nao sao imediatamente obvios. Para calcular seus valores, o 
assembler percorre o programa linha por linha, operagao denominada primeira passagem. Durante essa passagem, 
ele controla um contador de local em geral indicado pelo simbolo (ponto). Para cada instrugao e reserva 
de memoria que for encontrada nessa passagem, o contador de local e aumentado pelo valor correspondente ao 
tamanho da memoria necessaria para conter o item examinado. Assim, se o tamanho das duas primeiras instru¬ 
goes for 2 e 3 bytes, respectivamente, entao um rotulo na terceira instrugao tera o valor numerico 5. Por exemplo, 
se esse fragmento de codigo estiver no inlcio de um programa, o valor de L sera 5. 

MOV AX,6 

MOV BX,500 

L: 

No inlcio da segunda passagem, o valor numerico de cada simbolo e conhecido. Uma vez que valores nume- 
ricos dos mnemonicos de instrugoes sao constantes, agora a geragao de codigo pode comegar. As instrugoes sao 
lidas novamente, uma por vez, e seus valores binarios sao escritos no arquivo-objeto. Quando a ultima instrugao 
es tiver montada, o arquivo-objeto estara concluldo. 

C.5.2 0 assembler as88, baseado em ACK 

Esta segao descreve os detalhes do assembler /ligador as88, que e disponibilizado na Sala Virtual e que funcio- 
na com o rastreador. Esse assembler e o Amsterdam Compiler Kit (ACK) e segue mais o modelo dos montadores 
UNIX do que o dos MS-DOS ou Windows. O simbolo de comentario nesse assembler e o ponto de exclamagao (!). 
Qualquer coisa apos um ponto de exclamagao ate o final da linha e um comentario e nao afeta o arquivo-objeto 
produzido. Do mesmo modo, linhas vazias sao permitidas, porem ignoradas. 

Esse assembler usa tres segoes diferentes, nas quais o codigo traduzido e os dados serao armazenados. Essas 
segoes estao relacionadas com os segmentos de memoria da maquina. A primeira e a segao TEXT, para as instrugoes 
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de processador. Em seguida, vem a segao DATA, para a inicializagao da memoria no segmento de dados, que e conhe- 
cido no inlcio do processo. A ultima e a segao BSS (Block Started by Symbol - bloco iniciado por slmbolo), para a 
reserva de memoria no segmento de dados que nao e inicializado (isto e, e inicializado como 0). Cada segao tern seu 
proprio contador de local. A finalidade de ter segoes e permitir que o assembler gere algumas instrugoes, depois alguns 
dados, em seguida algumas instrugoes, depois mais dados e assim por diante, e entao fazer com que o ligador reorga¬ 
nize os pedagos de modo que todas as instrugoes estejam juntas no segmento de texto e todas as palavras de dados 
estejam juntas no segmento de dados. Cada linha de codigo de montagem produz salda para somente uma segao, 
mas linhas de codigo e linhas de dados podem ser intercaladas. Durante a execugao, a segao TEXT e armazenada no 
segmento de texto e os dados e segoes BSS sao armazenados (consecutivamente) no segmento de dados. 

Uma instrugao ou palavra de dados no programa em linguagem de montagem pode comegar com um rotulo. 
Um rotulo tambem pode aparecer sozinho em uma linha, caso em que e como se ele tivesse aparecido na proxima 
instrugao ou palavra de dados. Por exemplo, em 

CMP AX,ABC 
JE L 

MOV AX,XYZ 

L: 

L e um rotulo que se refere a instrugao de palavra de dados que vem depois dela. Sao permitidos dois tipos de 
rotulo. O primeiro sao os rotulos globais, identificadores alfanumericos seguidos por dois-pontos (:). Todos 
esses rotulos devem ser exclusivos e nao podem ser iguais a uma palavra reservada ou a um mnemonico de instru¬ 
gao. Segundo, so na segao TEXT, podemos ter rotulos locais, cada um consistindo em um unico dlgito seguido por 
dois-pontos (:). Um rotulo local pode ocorrer varias vezes. Quando um programa contem uma instrugao tal como 

JE 2f 

isso significa JUMP EQUAL para frente ate o proximo rotulo 2. De modo semelhante, 

JNE 4b 

significa JUMP NOT EQUAL para tras ate o rotulo 4 mais proximo. 

O assembler permite que as constantes recebam um nome simbolico usando a sintaxe 

identificador = expressao 

na qual o identificador e uma cadeia alfanumerica, como em 

BLOCKSIZE = 1024 

Como todos os identificadores em linguagem de montagem, somente os primeiros oito caracteres sao sig- 
nificativos, portanto, BLOCKSIZE e BLOCKSIZZ sao o mesmo slmbolo, a saber, BLOCKSIZ. Expressoes podem 
ser construldas com constantes, valores numericos e operadores. Rotulos sao considerados constantes porque no 
final da primeira passagem seus valores numericos sao conhecidos. 

Valores numericos podem ser octais (comegando com um 0), decimals ou hexadecimais (comegando com 
OX ou Ox). Numeros hexadecimais usam as letras a-f ou A-F para os valores 10-15. Os operadores de inteiros sao 
e %, para adigao, subtragao, multiplicagao, divisao e res to, respectivamente. Os operadores logicos sao &, 
A e ~, para AND bit a bit, OR bit a bit e complemento logico (NOT), respectivamente. Expressoes podem usar col- 
chetes, [ e ], para agrupamento. Parenteses NAO sao usados, para evitar confusao com modos de enderegamento. 

Rotulos em expressoes devem ser manuseados de um modo sensato. Nao podem ser subtraldos de rotulos de 
dados. A diferenga entre rotulos comparaveis e um valor numerico, mas nem rotulos nem suas diferengas sao permitidos 
como constantes em expressoes multiplicativas ou logicas. Expressoes que sao permitidas em definigoes de constantes 
tambem podem ser usadas como constantes em instrugoes do processador. Alguns assemblers tern facilidade de macro, 
pela qual multiplas instrugoes podem ser agrupadas e receber um nome, porem o as88 nao tern essa caracterlstica. 

Em toda linguagem de montagem ha algumas diretivas que influenciam o processo de montagem em si, mas 
que nao sao traduzidas para codigo binario. Elas sao denominadas pseudoinstrugoes. As pseudoinstrugoes do 
as88 estao relacionadas na Figura C.8. 
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Figura C.8 


As pseudoinstrucoes do as88. 


Instrugao 

Descrigao 1 

.SECT TEXT 

Monte as linhas seguintes na segao TEXT 

.SECT .DATA 

Monte as linhas seguintes na segao DATA 

.SECT .BSS 

Monte as linhas seguintes na segao BSS 

.BYTE 

Monte os argumentos como uma sequencia de bytes 

.WORD 

Monte os argumentos como uma sequencia de palavras 

.LONG 

Monte os argumentos como uma sequencia de longos 

.ASCII “str” 

Armazene str como uma cadeia ASCII sem um byte zero no final 

.ASCIZ “str” 

Armazene str como uma cadeia ASCII com um byte zero no final 

.SPACE n 

Avance o contador de local n posigoes 

.ALIGN n 

Avance o contador de local ate uma fronteira de n bytes 

.EXTERN 

Identificador e um nome externo 


O primeiro bloco de pseudoinstrugoes determina a segao na qual as linhas seguintes devem ser processadas 
pelo assembler. Em geral, a requisigao de tal segao e feita em uma linha separada e pode ser colocada em qualquer 
lugar do codigo. Por razoes de implementagao, a primeira segao a ser usada deve ser a TEXT, depois a segao DATA 
e, em seguida, a segao BSS. Apos essas references iniciais, as segoes podem ser usadas em qualquer ordem. Alem 
disso, a primeira linha de uma segao deve ter um rotulo global. Nao ha outras restrigoes para a ordenagao das segoes. 

O segundo bloco de pseudoinstrugoes contem as indicagoes de tipo de dados para o segmento de dados. Ha quatro 
tipos: .BYTE, .WORD, .LONG e cadeia. Apos um rotulo opcional e a palavra-chave da pseudoinstrugao, os primeiros 
tres tipos esperam, no restante da linha, uma lista de expressoes constantes, separada por vlrgulas. Para cadeias, ha 
duas palavras-chave, ASCII e ASCIZ, e a unica diferenga e que a segunda palavra-chave adiciona um byte zero ao fi¬ 
nal da cadeia. Ambas requerem uma cadeia entre aspas duplas. Ha varias sequencias de escape permitidas em defi- 
nigoes de cadeia. Apresentamos alguns deles na Figura C.9. Alem desses, qualquer caractere especlfico pode ser inserido 
por uma barra invertida e uma representagao octal, por exemplo, \377 (no maximo tres dlgitos, nenhum 0 requerido aqui). 


Figura C.9 


Alguns dos caracteres especiais permitidos pelo as88. 


Sfmbolo de escape 

Descrigao 

\n 

Nova linha (avango de linha) 

\t 

Tab 

\\ 

Barra invertida 

\b 

Retrocesso 

\f 

Avango de formulario 

\r 

Retorno de carro 

V 

Aspas duplas 


A pseudoinstrugao SPACE apenas requer que o ponteiro de local seja incrementado pelo numero de bytes 
dado nos argumentos. Essa palavra-chave e especialmente util em seguida ao rotulo no segmento BSS para reser- 
var memoria para uma variavel. A palavra-chave ALIGN e usada para avangar o ponteiro de local ate a primeira 
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fronteira de 2, 4 ou 8 bytes na memoria para facilitar a montagem de palavras, longos etc. em um local de memoria 
adequado. Por fim, a palavra-chave EXTERN anuncia que a rotina ou local de memoria mencionado ficara dis- 
ponlvel ao ligador para references externas. A definigao nao precisa estar no arquivo corrente; ela tambem pode 
estar em algum outro lugar, contanto que o ligador possa manusear a reference. 

Embora o assembler em si seja razoavelmente geral, quando ele e usado com o rastreador, vale a pena observar 
alguns pequenos pontos. O assembler aceita palavras-chave em maiusculas ou minusculas, mas o rastreador sempre 
as apresenta em maiusculas. De modo semelhante, o assembler aceita ambos, “\r” (retorno de carro) e “\n” (nova 
linha) como indicagao de uma nova linha, mas o rastreador usa a ultima. Alem do mais, embora o assembler possa 
manusear programas subdivididos em varios arquivos, para usa-lo com o rastreador, o programa inteiro deve estar 
em um unico arquivo com extensao Dentro dele, pode-se requisitar a inclusao de arquivos com o comando 

#include nome_do_arquivo 

Nesse caso, o arquivo requisitado tambem e escrito no arquivo combinado “.$” na posigao da requisigao. O 
assembler verifica se o arquivo include ja foi processado e carrega apenas uma copia. Isso e de especial utilidade 
se varios arquivos usarem o mesmo cabegalho de arquivo. Nesse caso, somente uma copia e inclulda no arquivo- 
-fonte combinado. Para incluir o arquivo, o # include deve ser o primeiro elemento da linha sem deixar espagos 
em branco na frente e o caminho do arquivo deve estar entre aspas duplas. 

Se houver um unico arquivo-fonte, por exemplo, pr.s, entao se admite que o nome do projeto e pr, e o arquivo 
combinado sera pr.$. Se houver mais de um arquivo-fonte, entao o nome de base ( basename ) do primeiro arquivo 
e considerado o nome do projeto ( projname ) e usado para a definigao do arquivo .$, que e gerado pelo assembler 
concatenando os arquivos-fonte. Esse comportamento pode ser cancelado se a linha de comando contiver um 
flag “-o projname” antes do primeiro arquivo-fonte, caso em que o nome do arquivo combinado sera projname.$. 

Note que ha algumas desvantagens em usar include e mais de uma origem. E necessario que os nomes dos 
rotulos, variaveis e cons tan tes sejam diferentes para todas as origens. Alem do mais, o arquivo que for eventual- 
mente montado para ser carregado e o arquivo projname. $, portanto, os numeros de linha mencionados pelo 
assembler em caso de erros e avisos sao determinados em relagao a esse arquivo. Para projetos muito pequenos, 
as vezes e mais simples colocar o programa inteiro em um arquivo e evitar # include. 

C.5.3 Algumas diferencas com outros assemblers 8088 

O assembler as88 e modelado conforme o assembler padrao UNIX e, como tal, e diferente, em alguns aspectos, do 
Microsoft Macro Assembler MASM e do Borland 8088 Assembler TASM. Esses dois foram projetados para o sistema 
operacional MS-DOS e, em certos aspectos, as questoes do assembler e as do sistema operacional estao intimamente 
relacionadas. Ambos, MASM e TASM, suportam todos os modelos de memoria do 8088 permitidos pelo MS-DOS. Ha, 
por exemplo, o modelo de memoria minuscula, no qual todo o codigo e os dados devem caber em 64 KB; o modelo 
pequeno, no qual o segmento de codigo e o segmento de dados cada um tern 64 KB; e modelos grandes, que contem 
varios segmentos de codigo e de dados. A diferenga entre esses modelos depende da utilizagao dos registradores de seg- 
mentos. O modelo grande permite chamadas distantes e altera o registrador DS. O processador em si impoe algumas 
restrigoes aos registradores de segmentos (por exemplo, o registrador CS nao e permitido como destino em uma ins- 
trugao MOV). Para simplificar o rastreamento, o modelo de memoria usado no as88 e parecido com o modelo pequeno, 
embora o assembler , sem o rastreador, possa manipular os registradores de segmentos sem restrigoes adicionais. 

Esses outros assemblers nao tern uma segao .BSS e inicializam a memoria somente nas segoes DATA. Em 
geral, o arquivo do assembler comega com alguma informagao de cabegalho, em seguida passa para a segao DATA, 
que e indicada pela palavra-chave .data, seguida pelo texto do programa depois da palavra-chave .code. O cabe¬ 
galho tern uma palavra-chave title para nomear o programa, uma palavra-chave .model para indicar o modelo da 
memoria e uma palavra-chave .stack para reservar memoria para o segmento de pilha. Se o binario pretendido for 
um arquivo .com, entao o modelo minusculo e usado, todos os registradores de segmentos sao iguais e no tltulo 
desse segmento combinado sao reservados 256 bytes para um “Prefixo de Segmento de Programa”. 

Em vez das diretivas .WORD, .BYTE e ASCIZ, esses assemblers tern palavras-chave DW para definir palavra e DB 
para definir byte. Apos a diretiva DB, pode ser definida uma cadeia de caracteres dentro de um par de aspas duplas. 
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Rotulos para definigoes de dados nao sao seguidos por dois-pontos. Grandes porgoes da memoria sao inicializadas 
pela palavra-chave DUP, que e precedida por uma contagem e seguida de uma inicializagao. Por exemplo, a declaragao 

LABEL DB 1000 DUP (0) 

inicializa 1.000 bytes de memoria com bytes de valor ASCII zero no rotulo LABEL. 

Alem disso, rotulos para sub-rotinas nao sao seguidos por dois-pontos, mas pela palavra-chave PROC. No 
final da sub-rotina, o rotulo e repetido e seguido pela palavra-chave ENDP, de modo que o assembler pode inferir 
o exato escopo de uma sub-rotina. Rotulos locais nao sao suportados. 

As palavras-chave para as instrugoes sao identicas em MASM, TASM e as88. Alem disso, a origem e colocada 
apos o destino em instrugoes de dois operandos. Todavia, e pratica comum usar registradores, em vez de uma pilha, 
para passar argumentos para fungoes. Contudo, se forem usadas rotinas de montagem dentro de programas C ou 
C++, e aconselhavel usar a pilha para ficar de acordo com o mecanismo de chamada de sub-rotina em C. Essa nao 
e uma diferenga real, visto que, em as88, tambem e posslvel usar registradores em vez da pilha para argumentos. 

A maior diferenga entre MASM, TASM e as88 esta na realizagao de chamadas de sistema. Em MASM e TASM, o 
sistema e chamado por meio de uma interrupgao de sistema I NT. A mais comum e I NT 21H, que e destinada as cha¬ 
madas de fungao do MS-DOS. O numero da chamada e colocado em AX, portanto, mais uma vez, temos passagem 
de argumentos em registradores. Ha vetores de interrupgao e numeros de interrupgao diferentes para equipamentos 
diferentes, por exemplo, I NT 16H para as fungoes de teclado do BIOS e I NT 10H para o monitor. Para programar 
essas fungoes, o programador tern de estar ciente de uma grande quantidade de informagoes que dependem do 
dispositivo. Por comparagao, as chamadas de sistema do UNIX disponlveis em as88 sao muito mais faceis de usar. 


C.6 0 rastreador ( tracer) 

O rastreador-depurador deve executar em um terminal normal de 24 x 80 (VT100), com os comandos ANSI 
padronizados para terminais. Em maquinas UNIX ou Linux, o emulador de terminal no sistema X-window em 
geral cumpre os requisitos. Em maquinas Windows, o driver ansi.sys normalmente tern de ser carregado nos 
arquivos de inicializagao do sistema como descrevemos adiante. Ja vimos o layout da janela do rastreador nos 
exemplos do rastreador. Como se pode ver na Figura C.10, a tela do rastreador e subdividida em sete janelas. 


Figura CIO 


As janelas do rastreador. 


Processador 


Texto do programa 

com 

Pilha 


registradores 


Arquivo-fonte 

Pilha de chamadas 
de sub-rotinas 

Campo de safda de erro 

Campo de entrada 

Campo de safda 

Comandos do 
interpretador 


Valores de variaveis globais 


Segmento de dados 


A janela superior esquerda e a do processador, que exibe os registradores gerais em notagao decimal e os outros 
registradores em hexadecimal. Uma vez que o valor numerico do contador de programa nao e muito esclarecedor, a 
posigao no codigo-fonte do programa em relagao ao rotulo global anterior e fornecida na linha abaixo dele. Acima 
do campo de contador de programa sao mostrados cinco codigos de condigao. O excesso e indicado por um V, 
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o flag de diregao por “>” para aumentar e por “<” para diminuir. Oflag de sinal e “n” para negativo ou “p” para zero 
e positivo. Oflag de zero e “z” se marcado, e oflag de vai-um marcado e “c”. Um indica um flag nao marcado. 

A janela superior do meio e usada para a pilha, que aparece em hexadecimal. A posigao do ponteiro de pilha 
e indicada por uma seta Enderegos de retorno e sub-rotinas sao indicados por um dlgito a frente do valor 
hexadecimal. A janela superior direita exibe uma parte do arquivo-fonte na vizinhanga da proxima instrugao a ser 
executada. A posigao do contador de programa tambem e indicada por uma seta “=>”. 

Na janela sob o processador sao exibidas as posigoes mais recentes das chamadas de sub-rotina de codigo- 
-fonte. Diretamente abaixo dela esta a janela de comandos do rastreador, que apresenta o comando previamente 
emitido na parte de cima e o cursor de comando na parte de baixo. Note que cada comando precisa ser seguido 
por um retorno do carro (Enter, em teclados de PC). 

A janela de baixo pode conter seis itens de memoria de dados globais. Cada item inicia com uma posigao 
relativa a algum rotulo, seguida pela posigao absoluta no segmento de dados. Logo apos, dois-pontos, e entao oito 
bytes em hexadecimal. As 11 posigoes seguintes sao reservadas para caracteres, seguidas por quatro representa- 
goes de palavra decimal. Os bytes, os caracteres e as palavras representam o mesmo conteudo de memoria, embora 
tenhamos tres bytes extras para representagao de caracteres. Isso e conveniente, porque nao fica claro, desde o 
inlcio, se os dados serao usados como inteiros com sinal ou sem sinal, ou como uma cadeia. 

A janela do meio a direita e usada para entrada e salda. A primeira linha e para salda de erro do rastreador, 
a segunda linha para entrada e entao ha algumas linhas restantes para a salda. A salda de erro e precedida pela 
letra “E”, a entrada por um “I” e a salda padrao por um “>”. Na linha de entrada ha uma seta para indicar 
o ponteiro que deve ser lido em seguida. Se o programa chamar read ou getchar, a proxima entrada na linha de 
comando do rastreador estara indo para o campo de entrada. Alem disso, nesse caso, e necessario terminar a linha 
de entrada com um retorno. A parte da linha que ainda nao foi processada pode ser encontrada apos a seta 

Em geral, o rastreador le seus comandos e suas entradas a partir da entrada-padrao. Contudo, tambem e 
posslvel preparar um arquivo de comandos de rastreador e um arquivo de linhas de entrada a serem lidas antes 
de passar o controle para a entrada-padrao. Arquivos de comando do rastreador tern extensoes .t e arquivos de 
entrada .i. Na linguagem de montagem, podem-se usar caracteres maiusculos e minusculos para palavras-chave, 
sub-rotinas de sistema e pseudoinstrugoes. Durante o processo de montagem, e feito um arquivo com extensao 
.$, no qual as palavras-chave em minusculas sao traduzidas para maiusculas e caracteres de carriage return (CR) 
sao descartados. Desse modo, para cada projeto, por exemplo, pr, podemos ter ate seis arquivos diferentes: 

1. pr.s para o codigo-fonte de montagem. 

2. pr.$ para o arquivo-fonte compos to. 

3. pr.88 para o arquivo de carga. 

4. pr.i para a entrada-padrao predefinida. 

5. pr.t para comandos de rastreador predefinidos. 

6. pr.# para ligar o codigo de montagem ao arquivo de carga. 

O ultimo arquivo e usado pelo rastreador para preencher a janela superior direita e o campo de contador de 
programa no monitor. Alem disso, o rastreador verifica se o arquivo de carga foi criado apos a ultima modificagao 
do programa-fonte; se nao foi, ele emite uma advertencia. 

C.6.1 Comandos do rastreador 

A Figura C.ll apresenta uma relagao de comandos do rastreador. Os mais importantes sao o comando de 
retorno unico, que e a primeira linha da tabela e que executa exatamente uma instrugao de processador, e o 
comando de salda q, na ultima linha da tabela. Se for dado um numero como um comando, entao esse numero 
de instrugoes e executado. O numero k e equivalente a digitar um Enter k vezes. O mesmo efeito e conseguido 
se o numero for seguido de um ponto de exclamagao (/) ou de um X. 
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Figura Cl 1 Comandos do rastreador. Cada comando deve ser seguido por um carriage return (a tecla Enter). Um retangulo vazio indica 
que apenas um carriage return e necessario. Comandos sem campo Address na lista a seguir nao tern endereco. 0 simbolo # 
representa um deslocamento de inteiro. 



O comando g pode ser usado para ir ate certa linha no arquivo-fonte. Ha tres versoes desse comando. Se ele for pre- 
cedido por um numero de linha, entao o rastreador executa ate que essa linha seja encontrada. Com um rotulo /T, com 
ou sem +#, o numero da linha na qual parar e calculado a partir do rotulo de instrugao T. O comando g, sem qualquer 
indicagao que o preceda, faz o rastreador executar comandos ate que o numero da linha corrente seja encontrado de novo. 

O comando /label e diferente para um rotulo de instrugao e para um rotulo de dados. No caso de rotulo de 
dados, uma linha na janela de baixo e preenchida ou substitulda por um conjunto de dados que comegam com 
aquele rotulo. Para um de instrugao, ele e equivalente ao comando g. O rotulo pode ser seguido de um sinal de 
mais e um numero (indicado por # na Figura C.ll), para obter um deslocamento em relagao ao rotulo. 

E posslvel estabelecer um ponto de interrupgao em uma instrugao, o que e feito com o comando b, que, por opgao, 
pode ser precedido por um rotulo de instrugao, possivelmente com um deslocamento. Se for encontrada uma linha 
com um ponto de interrupgao durante a execugao, o rastreador interrompe. Para comegar de novo a partir de um ponto 
de interrupgao, e requerido um comando de retomo ou de execugao. Se o rotulo e o numero forem omitidos, entao o ponto de 
interrupgao e definido na linha atual. O ponto de interrupgao pode ser liberado por um comando de liberagao de ponto 
de interrupgao, c, que pode ser precedido por rotulos e numeros, como o comando b. Ha um comando de execugao, r, no 
qual o rastreador executa ate ser encontrado um ponto de interrupgao, uma chamada de salda ou o final dos comandos. 

O rastreador tambem monitora o nlvel de sub-rotina no qual o programa esta executando. Isso e mostrado 
na janela abaixo da janela de processador e tambem pode ser visto por meio dos numeros de indicagao na janela 
de pilha. Ha tres comandos que sao baseados nesses nlveis. O comando - faz o rastreador executar ate que o 
nlvel de sub-rotina seja um a menos do que o atual. A tarefa desse comando e executar instrugoes ate que a sub- 
-rotina atual seja conclulda. O inverso e o comando +, que executa o rastreador ate encontrar o proximo nlvel de 
sub-rotina. O comando = executa ate encontrar o mesmo nlvel e pode ser usado para executar uma sub-rotina 
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no comando CALL. Se for usado =, os detalhes da sub-rotina nao sao mostrados na janela do rastreador. Ha um 
comando relacionado, n, que executa ate ser encontrada a proxima linha no programa. Esse comando e muito 
util quando emitido como um comando LOOP; a execugao para exatamente quando e executado o final do lago. 


C.7 Como acessar 

Antes de acessar pela primeira vez as ferramentas disponlveis como material de apoio, e necessario localizar 
o software para a sua plataforma. Temos versoes pre-compiladas para Solaris, UNIX, Linux e Windows. 

As ferramentas estao disponlveis em <sv.pearson.com.br>. Para mais informagoes, consulte a pagina XVII, 
no inlcio deste livro. 


C.8 Exemplos 

Da Segao C.2 ate a Segao C.4, discutimos o processador 8088, sua memoria e suas instrugoes. Em seguida, na Segao 
C.5, estudamos a linguagem de montagem as88 usada neste tutorial. Na Segao C.6, estudamos o rastreador. Por fim, 
na Segao C.7, descrevemos como montar o conjunto de ferramentas. Em teoria, essas informagoes sao suficientes para 
escrever e depurar programas de montagem com as ferramentas fornecidas. Ainda assim, talvez seja util para muitos 
leitores ver alguns exemplos detalhados de programas de montagem e como eles podem ser depurados com o rastreador. 
Tal e a finalidade desta segao. Todos os exemplos de programas discutidos aqui estao disponlveis no diretorio examples 
do conjunto de ferramentas. Aconselhamos o leitor a montar e rastrear cada um deles a medida que e discutido. 

C.8.1 Exemplo Hello World 

Vamos iniciar com o exemplo da Figura C.12, HlloWrld.s. A listagem do programa aparece na janela esquerda. 
Uma vez que o slmbolo de comentario do assembler e o ponto de exclamagao (!), ele e usado na janela de pro¬ 
grama para separar as instrugoes dos numeros de linha que vem depois delas. As tres primeiras linhas contem 
definigoes de constantes, que conectam os nomes convencionais de duas chamadas de sistema e o arquivo de 
salda para suas correspondentes representagoes internas. 


Figura C.1 2 (a) HlloWrld.s. (b) A janela correspondente no rastreador. 


_EXIT = 

: 1 

! 1 

.WRITE 

= 4 

! 2 

_STDOUT =1 

! 3 

.SECT .TEXT 

! 4 

start: 


! 5 

MOV 

CX,de-hw 

! 6 

PUSH 

CX 

! 7 

PUSH 

hw 

! 8 

PUSH 

_STDOUT 

! 9 

PUSH 

.WRITE 

! 10 

SYS 


! 11 

ADD 

SP, 8 

! 12 

SUB 

CX,AX 

! 13 

PUSH 

CX 

! 14 

PUSH 

.EXIT 

! 15 

SYS 


! 16 

.SECT .DATA 

! 17 

hw: 


! 18 

.ASCII "Hello World\n" 

! 19 

de: .BYTE 

0 

! 20 


CS: 00 DS = SS = ES: 002 


MOV 

CX,de-hw 

! 

6 

AH:00 AL:0c 

AX: 12 


PUSH 

CX 

! 

7 

BH:00 BL:00 

BX: 0 


PUSH 

HW 

! 

8 

CH:00 CL:0c 

CX: 12 


PUSH 

.STDOUT 

! 

9 

DH:00 DL:00 

DX: 0 


PUSH 

.WRITE 

! 

10 

SP: 7fd8 SF 

O D S Z C 

=>0004 

SYS 


! 

11 

BP: 0000 CC 

- > p - - 

0001 

=> ADD 

SP, 8 

! 

12 

SI: 0000 IP 

o 

o 

o 

o 

“0 

o 

0000 

SUB 

CX, AX 

! 

13 

D1 : 0000 start +7 

000c 

PUSH 

CX 

! 

14 


hw 


> Hello World\n 


hw + 0 = 0000:48 65 6c 6c 6f 20 57 6f Hello World 25928 


(a) 


(b) 
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A pseudoinstrugao .SECT, na linha 4, declara que as linhas seguintes devem ser consideradas parte da segao 
TEXT; isto e, instrugoes de processador. De modo semelhante, a linha 17 indica que o que vem a seguir deve ser 
considerado dados. A linha 19 inicializa uma cadeia de dados que consiste em 12 bytes, incluindo um espago e 
uma nova linha (\n) no final. 

As linhas 5, 18 e 20 contem rotulos, que sao indicados por dois-pontos (:). Esses rotulos representam valores 
numericos, semelhantes a constantes. Contudo, nesse caso, o assembler tem de determinar os valores numericos. 
Uma vez que start estara no comego da segao TEXT, seu valor sera 0, mas o valor de quaisquer rotulos subsequen- 
tes na segao TEXT (nao presentes neste exemplo), dependeriam de quantos bytes de codigo as precedem. Agora, 
considere a linha 6. Ela termina com a diferenga entre dois rotulos, que e uma constante, em termos numericos. 
Assim, a linha 6 e, para qualquer efeito, a mesma que 

MOV CX,12 

com a excegao que deixa o assembler determinar o comprimento da cadeia em vez de obrigar o programador a 
fazer isso. O valor indicado aqui e a quantidade de espago nos dados reservada para a cadeia na linha 19. A ins- 
trugao MOV na linha 6 e o comando de copia, que requer que o valor de-hw seja copiado para CX. 

As linhas 7 ate 11 mostram como sao feitas chamadas de sistema no conjunto de ferramentas. Essas cinco 
linhas sao a tradugao em codigo de montagem da chamada de fungao em linguagem C 

write(1, hw, 12); 

em que o primeiro parametro e o descritor de arquivo para a salda-padrao (1), o segundo e o enderego da cadeia 
a ser impressa (hw) e o terceiro e o comprimento da cadeia (12). As linhas 7 a 9 passam esses parametros para a 
pilha na ordem inversa, que e a sequencia de chamada em C, e que e a usada pelo rastreador. A linha 10 passa para 
a pilha o numero da chamada de sistema para write (4), e a linha 11 faz a chamada propriamente dita. Embora 
essa sequencia de chamada imite o modo como um programa em linguagem de montagem funcionaria em um PC 
UNIX (ou Linux), no caso de um sistema operacional diferente, ela teria de ser ligeiramente modificada para usar 
as convengoes de chamada daquele sistema. Contudo, o assembler as88 e o rastreador t88 usam as convengoes de 
chamada do UNIX, ainda que estejam executando em Windows. 

A chamada de sistema na linha 11 executa a impressao propriamente dita. A linha 12 faz uma limpeza na 
pilha, reajustando o ponteiro para o valor que tinha antes que as quatro palavras de 2 bytes fossem passadas para 
a pilha. Se a chamada write for bem-sucedida, o numero de bytes escritos e retomado em AX. A linha 13 subtrai o 
resultado da chamada de sistema apos a linha 11 do comprimento da cadeia original em CX para ver se a chamada 
foi bem-sucedida, isto e, para ver se todos os bytes foram escritos. Assim, o status de salda do programa sera 0 
quando houver sucesso e alguma outra coisa quando houver fracasso. As linhas 14 e 15 preparam para a chamada 
de sistema exit na linha 16 passando para a pilha o status de salda e o codigo de fungao para a chamada EXIT. 

Note que, nas instrugoes MOV e SUB, o primeiro argumento e o destino e o segundo, a origem. Essa e a 
convengao usada por nosso assembler; outros podem inverter a ordem. Nao ha nenhuma razao particular para 
escolher uma ou outra. 

Agora, vamos tentar montar e executar HlloWrld.s. Serao dadas instrugoes para as plataformas UNIX e 
Windows. Para Linux, Solaris, MacOS X e outras variantes do UNIX, o procedimento deve ser basicamente o 
mesmo que para o UNIX. Em primeiro lugar, inicie uma janela de prompt de comando (shell, ou interpretador de 
comandos). No Windows, a sequencia de cliques e, em geral, 

Iniciar > Programas > Acessorios > Prompt de comando 

Em seguida, mude para o diretorio examples usando o comando cd (Change directory). O argumento para esse 
comando depende do local onde o conjunto de ferramentas foi colocado no sistema de arquivos. Depois, verifique 
se os binarios do assembler e do rastreador estao nesse diretorio usando Is em sistemas UNIX e dir em sistemas 
Windows. Eles sao denominados as88 e t88 , respectivamente. Em sistemas Windows, eles tem a extensao .exe, 
mas nao e preciso digita-la nos comandos. Se o assembler e o rastreador nao estiverem ah, voce deve acha-los e 
entao copia-los para esse diretorio. 

Agora, monte o programa de teste usando 

as88 HlloWrld.s 
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Se o assembler estiver presente no diretorio examples, mas esse comando der uma mensagem de erro, tente outra 
vez, digitando 

./as88 HlloWrld.s 

em sistemas UNIX ou 
Aas88 HlloWrld.s 
em sistemas Windows. 

Se o processo de montagem concluir corretamente, as seguintes mensagens serao apresentadas: 

Project HlloWrld listfile HlloWrld.$ 

Project HlloWrld num file HlloWrld.# 

Project HlloWrld loadfile HlloWrld.88. 

e os tres arquivos correspondentes serao criados. Se nao houver nenhuma mensagem de erro, de o comando de 
rastreador: 

t88 HlloWrld 

O visor do rastreador aparecera com a seta na janela superior direita apontando para a instrugao 
MOV CX,de-hw 

da linha 6. Agora, aperte a tecla Return (Enter, em teclados de PC). Note que a instrugao apontada desta vez e 

PUSH CX 

e o valor de CX na janela da esquerda agora e 12. Aperte de novo a tecla Return e observe que a janela do meio 
na linha de cima desta vez contem o valor 000c, que e o hexadecimal para 12. Essa janela mostra a pilha, a qual 
agora tern uma palavra que contem 12. Novamente, aperte a tecla de retorno mais tres vezes para ver a execugao 
das instrugoes PUSH nas linhas 8, 9 e 10. Nesse ponto, a pilha tera quatro itens e o contador de programa na 
janela esquerda tera o valor 000b. 

Na proxima vez que a tecla Return for acionada, a chamada de sistema sera executada e a cadeia “Hello World\n” 
sera apresentada na janela inferior direita. Note que, agora, o SP tern o valor 0x7ff0. Apos o proximo Return, SP e 
incrementado em 8 e se torna 0x7ff8. Apos mais quatro Returns, a chamada de sistema exit conclui e o rastreador sai. 

Para ter certeza de que voce entendeu como tudo funciona, busque o arquivo HlloWrld.s em seu editor favorito. 
E melhor nao usar um processador de textos. Em sistemas UNIX, ex, vi ou emacs sao boas opgoes. Em sistemas 
Windows, notepad (ou bloco de notas) e um editor simples, que em geral pode ser alcangado por 

Iniciar > Programas > Acessorios > Bloco de notas 

Nao use o Word, uma vez que a tela nao parecera certa e a salda podera estar formatada incorretamente. 

Modifique a cadeia na linha 19 para apresentar uma mensagem diferente, entao, salve o arquivo, monte-o e 
execute-o com o rastreador. Agora, voce esta comegando a fazer programagao em linguagem de montagem. 

C.8.2 Exemplo de registradores gerais 

O proximo exemplo demonstra com mais detalhes como os registradores sao apresentados e uma das 
ciladas da multiplicagao no 8088. Na Figura C.13, parte do programa genReg.s e mostrada no lado esquerdo. A 
direita dessa janela estao duas janelas de registradores do rastreador correspondentes a diferentes estagios da 
execugao do programa. A Figura C. 13(b) mostra o estado do registrador apos a execugao da linha 7. A instrugao 
MOV AX,258 

na linha 4 carrega o valor 258 em AX, que resulta no carregamento do valor 1 em AH e do valor 2 em AL. Entao, 
a linha 5 soma AL com AH e AH fica igual a 3. Na linha 6, o conteudo da variavel times (10) e copiado para CX. 
Na linha 7, o enderego da variavel muldat, que e 2 porque ela esta no segundo byte do segmento DATA, e carre- 
gado em BX. Esse e o momento mostrado na Figura C. 13(b). Note que AH e 3, AL e 2 e AX e 770, o que era de 
se esperar, porque 3 x 256 + 2 = 770. 
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Figura C.13 


(a) Parte de um programa. (b) A janela de registradores do rastreador apos a execucao da linha 7. (c) Os registradores. 


cs 

: 00 DS = 

SS=ES002 

AH: 

38 AL 

: 80 

AX: 14464 

BH: 

_i 

CD 

O 

O 

: 02 

BX: 2 

CH 

_l 

O 

o 

o 

: 04 

CX: 4 

DH: 

:00 DL 

: 01 

DX: 1 

SP: 

o 

0 

rT 

SF 

O D S Z C 

BP: 

: 0000 

CC 

v > p - c 

S 1 : 

0000 

IP 

: 0011:PC 

D 1 : 

0000 

s t 

a rt + 7 


start: 


! 3 

MOV 

AX,258 

! 4 

ADDB 

AH,AL 

! 5 

MOV 

CX,(times) 

! 6 

MOV 

BX,muldat 

! 7 

MOV 

AX,(BX) 

! 8 

lip: MUL 

2(BX) 

! 9 

LOOP 

lip 

! 10 

.SECT .DATA 

! 11 

times: .WORD 10 

! 12 

muldat: .WORD 625,2 

! 13 


CS 

: 00 DS = 

SS=ES: 

002 

AH: 

_i 

< 

CO 

o 

eg 

o 

AX: 

770 

BH: 

_l 

CD 

o 

o 

eg 

o 

BX: 

2 

CH 

—I 

o 

o 

o 

:0a 

CX: 

10 

DH: 

—I 

Q 

o 

o 

: 00 

DX: 

0 

SP: 

o 

0 

rT 

SF 

O D S 

Z C 

BP: 

0000 

CC 

- > P 

- - 

S 1 : 

0000 

IP 

o 
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A instrugao seguinte (linha 8) copia o conteudo de muldat para AX. Assim, apos o acionamento da tecla 
Return, AX sera 625. 

Agora, estamos prontos para entrar em um lago que multiplica o conteudo de AX pela palavra enderegada 
por 2BX (isto e, muldat + 2), que tern o valor 2. O destino impllcito da instrugao MUL e a combinagao de regis¬ 
tradores longos DX : AX. Na primeira iteragao do lago, o resultado cabe em uma palavra, portanto, AX contem 
o resultado (1.250) e DX permanece 0. O conteudo de todos os registradores apos 7 multiplicagoes e mostrado 
na Figura C.13. 

Vis to que AX comegou em 625, o resultado apos essas sete multiplicagoes por 2 e 80.000. Esse resultado nao 
cabe em AX, mas o produto e contido no registrador de 32 bits formado pela concatenagao de DX : AX, portanto, 
DX ele AX e 14.464. Em termos numericos, esse valor e 1 x 65.536 + 14.464, que e, de fato, 80.000. Note que CX 
e 4 aqui, porque a instrugao LOOP o decrementa a cada iteragao. Como ele comegou em 10, apos sete execugoes 
da instrugao MUL (mas somente seis iteragoes da instrugao LOOP) temos CX ajustado para 4. 

Na multiplicagao seguinte aparece o problema. A multiplicagao envolve AX, mas nao DX, portanto, a MUL 
multiplica AX (14.464) por 2 para obter 28.928. Isso resulta no ajuste de AX para 28.928 e de DX para 0, o que 
e incorreto em termos numericos. 


C.8.3 Comando de chamada e registradores de ponteiros 

O proximo exemplo, vecprod.s, e um pequeno programa que calcula o produto interno de dois vetores, vecl 
e vec2. A listagem do programa e mostrada na Figura C.14. 


Figura C.14 0 programa vecprod.s. 

_EXIT = 1 
_PRINTF = 127 
.SECT .TEXT 
inpstart: 

MOV BP,SP 
PUSH vec2 
PUSH vecl 
MOV CX,vec2-vec1 
SHR CX,1 
PUSH CX 
CALL vecmul 
MOV (inprod),AX 
PUSH AX 
PUSH pfmt 
PUSH _PRINTF 
SYS 

ADD SP.12 


1 defina o valor de _EXIT 

2 defina o valor de _PRINTF 

3 inicie o segmento TEXT 

4 defina rotulo inpstart 

5 salve SP em BP 

6 passe o enderego de vec2 para a pilha 

7 passe o enderego de vecl para a pilha 

8 CX = numero de bytes no vetor 

9 CX = numero de palavras no vetor 

10 passe contagem de palavras para a pilha 

11 chame vecmul 

12 mova AX 

13 passe resultado a ser impresso para a pilha 

14 passe enderego de cadeia de formato para a pilha 

15 passe codigo de fungao de PRINTF para a pilha 

16 chame a fungao PRINTF 

17 limpe a pilha 
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PUSH 0 

! 18 passe codigo de status para a pilha 

PUSH EXIT 

! 19 passe codigo de fungao de EXIT para a pilha 

SYS 

! 20 chame a fungao EXIT 

vecmul: 

! 21 infcio de vecmul(count, vecl, vec2) 

PUSH BP 

! 22 salve BP na pilha 

MOV BP,SP 

! 23 copie SP para BP para acessar argumentos 

MOV CX,4(BP) 

! 24 ponha contagem em CX para controlar lago 

MOV SI,6(BP) 

! 25 SI = vecl 

MOV DI,8(BP) 

! 26 Dl = vec2 

PUSH 0 

! 27 passe 0 para a pilha 

1: LODS 

! 28 mova (SI) para AX 

MUL (Dl) 

! 29 multiplique AX por (Dl) 

ADD -2(BP),AX 

! 30 some AX com valor acumulado na memoria 

ADD Dl,2 

! 31 incremente Dl para apontar para o proximo elemento 

LOOP 1b 

! 32 se CX > 0, volte ao rotulo 1b 

POP AX 

! 33 retire topo da pilha para AX 

POP BP 

! 34 restaure BP 

RET 

! 35 retorne da sub-rotina 

.SECT .DATA 

! 36 inicie segmento DATA 

pfmt: .ASCIZ “Produto interno e: %d\n” 

! 37 defina cadeia 

.ALIGN 2 

! 38 force enderego par 

vecl: .WORD 3,4,7,11,3 

! 39 vetor 1 

vec2: .WORD 2,6,3,1,0 

! 40 vetor 2 

.SECT .BSS 

! 41 inicie segmento BSS 

inprod: .SPACE 2 

! 42 reserve espago para inprod 


A primeira parte do pro grama prepara para chamar vecmul salvando SP em BP e entao passando os endere- 
gos de vec2 e vecl para a pilha, de modo que vecmul tera acesso a eles. Entao, o comprimento do vetor em bytes 
e carregado em CX na linha 8. Deslocando esse resultado um bit para a direita, na linha 9, CX agora contem o 
numero de palavras no vetor, que entao e passado para a pilha na linha 10. A chamada a vecmul e feita na linha 11. 

Mais uma vez, vale a pena mencionar que os argumentos de sub-rotinas sao, por convengao, passados para 
a pilha na ordem inversa, para ficarem compatlveis com a convengao de chamada em C. Desse modo, vecmul 
tambem pode ser chamado em C usando 

vecmul(count, vecl, vec2) 

Durante a instrugao CALL, o enderego de retorno e passado para a pilha. Se o programa for rastreado, entao vere- 
mos que esse enderego vem a ser 0x0011. 

A primeira instrugao na sub-rotina e um PUSH do ponteiro de base, BP, na linha 22. BP e salvo porque 
precisaremos desse registrador para enderegar os argumentos e as variaveis locais da sub-rotina. Em seguida, o 
ponteiro de pilha e copiado para o registrador BP na linha 23, de modo que o novo valor do ponteiro de base 
esta apontando para o valor antigo. 

Agora, tudo esta pronto para carregar os argumentos nos registradores e para reservar espago para uma varia- 
vel local. Nas tres linhas seguintes, cada um dos argumentos e buscado na pilha e colocado em um registrador. 
Lembre-se de que a pilha funciona com palavras, portanto, enderegos de pilha devem ser pares. O enderego de 
retorno esta junto ao ponteiro de base antigo, assim, ele e enderegado por 2(BP). O argumento count vem em 
seguida e e enderegado por 4(BP). Ele e carregado em CX na linha 24. Nas linhas 25 e 26, SI e carregado com vecl 
eDI e carregado com vec2. Essa sub-rotina precisa de uma variavel local com valor inicial 0 para salvar o resultado 
imediato, de modo que o valor 0 e passado para a pilha na linha 27. 

O estado do processador pouco antes de entrar pela primeira vez no lago na linha 28 e mostrado na Figura 
C.15. A janela estreita no meio da linha do topo (a direita dos registradores) mostra a pilha. Na parte de baixo 
da pilha esta o enderego de vec2 (0x0022), com vecl (0x0018) acima dele e o terceiro argumento, o numero de 
itens em cada vetor (0x0005) acima desse ultimo. Em seguida, vem o enderego de retorno (0x0011). O numero 
1 a esquerda indica que ele e um enderego de retorno a um nlvel do programa principal. Na janela abaixo dos 
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registradores, o mesmo numero 1 e mostrado, dessa vez dando seu enderego simbolico. Acima do enderego de 
retorno na pilha esta o antigo valor de BP (0x7fc0) e entao o zero passado na linha 27. A seta que aponta para 
esse valor indica para onde SP aponta. A janela a direita da pilha mostra um fragmento do texto do programa, 
com a seta indicando a proxima instrugao a ser executada. 


Figura Cl5 


Execucao de vecprod.s quando ele alcanca a linha 28 pela primeira vez. 


MOV BP,SP ! 5 

PUSH vec2 ! 6 

PUSHvecI ! 7 

MOV CX,vec2-vec1 ! 8 
SHR CX,1 ! 9 

PUSH CX ! 10 

CALL vecmul ! 11 


vecmul: ! 21 

PUSH BP ! 22 

MOV BP,SP ! 23 

MOV CX,4(BP) ! 24 

MOV SI,6(BP) ! 25 

MOV DI,8(BP) ! 26 

PUSH 0 !27 

1: LODS ! 28 

MUL (Dl) ! 29 

ADD -2(BP),AX ! 30 

ADD Dl ,2 ! 31 

LOOP 1b ! 32 


CS: 00 DS = SS = ES: 004 



PUSH BP 

! 22 

AH:00 AL:00 AX: 

0 



MOV BP,SP 

! 23 

BH:00 BL:00 BX: 

0 



MOV CX,4(BP) 

! 24 

CH:00 CL:05 CX: 

5 

=>0000 


MOV SI,6(BP) 

! 25 

DH:00 DL:00 DX: 

0 

7fc0 


MOV DI,8(BP) 

! 26 

SP: 7fb4 SF O D S Z C 

1 0011 


PUSH 0 

! 27 

BP: 7fb6 CC - > p z 

- 

0005 

= >1: 

LODS 

! 28 

SI: 0018 1 P : 00 3 1 :PC 

0018 


MUL (Dl) 

! 29 

D 1 : 0022 vecmul + 7 


0022 


ADD -2(BP),AX 

! 30 

1 <= inpstart + 7 


1 




■ 


> 




vecl+0 =0018:3 0 

4 

0 7 

0 b 

0. 

3 

vec2+ 0 =0022: 2 0 

6 

0 3 

0 1 

0. 

2 

pfmt + 0 =0000:54 68 65 

20 69 6e 20 

70 The in prod 

26708 

pfmt+18 =001 2:25 64 ; 

21 

a 0 

0 3 

0 % d !. 

.25637 


Agora, vamos examinar o lago que comega na linha 28. A instrugao LODS carrega uma palavra de 
memoria indiretamente para AX, por meio do registrador SI a partir do segmento de dados. Como o flag de 
diregao esta ajustado, LODS esta em modo de autoincremento, portanto, apos a instrugao SI, apontara para 
a proxima entrada de vecl. 

Para ver esses efeitos em modo grafico, inicie o rastreador com o comando 

t88 vecprod 

Quando a janela do rastreador aparecer, digite o comando 

/vecmul+7b 

seguido de um Return para colocar um ponto de interrupgao na linha que contem o LODS. De agora em diante, 
nao mencionaremos que todos os comandos devem ser seguidos pela tecla Return. Entao, de o comando 

9 

para que o rastreador execute comandos ate o ponto de interrupgao ser encontrado. Ele vai parar na linha que 
contem LODS. 

Na linha 29, o valor de AX e multiplicado com o operando de origem. A palavra de memoria para a instrugao 
MUL e buscada no segmento de dados por meio do Dl em modo indireto de registrador. O destino impllcito de MUL 
e a combinagao de registradores longos DX : AX, que nao e mencionada na instrugao, mas que esta impllcita nela. 

Na linha 30, o resultado e adicionado a variavel local no enderego de pilha -2(BP). Como MUL nao autoin- 
crementa seu operando, isso deve ser feito explicitamente na linha 3E Logo depois, Dl aponta para a proxima 
entrada de vec2. 

A instrugao LOOP encerra essa etapa. O registrador CX e decrementado e, se ainda for positivo, o programa 
salta para tras ate o rotulo local 1 na linha 28. A utilizagao do rotulo local lb significa o rotulo 1 mais proximo 
olhando para tras a partir do local atual. Apos o lago, a sub-rotina retira da pilha o valor de retorno para AX (linha 
33), restaura BP (linha 34) e volta para o programa que chamou (linha 35). 
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Entao, o programa principal e retomado apos a chamada com a instrugao MOV na linha 12. Essa instrugao 
e o inlcio de uma sequencia de cinco instrugoes cujo objetivo e imprimir o resultado. A chamada de sistema 
printf e modelada segundo a fungao printf na biblioteca de programagao padrao de C. Tres argumentos sao 
passados para a pilha nas linhas 13-15. Esses argumentos sao o valor do inteiro a ser impresso, o enderego 
da cadeia de forma to ( pfmt ) e o codigo de fungao para printf (127). Note que a cadeia de forma to pfmt contem 
um %d para indicar que uma variavel inteira pode ser encontrada como argumento para a chamada printf para 
concluir a salda. 

A linha 17 limpa a pilha. Uma vez que o programa comegou na linha 5 salvando o ponteiro de pilha no 
ponteiro de base, tambem poderlamos usar a instrugao 

MOV SP,BP 

para limpar a pilha. A vantagem dessa solugao e que o programador nao precisa manter a pilha balanceada no 
processo. Para o programa principal isso nao e grande coisa, mas em sub-rotinas essa abordagem e um modo facil 
de jogar fora o lixo, tal como variaveis locais obsoletas. 

A sub-rotina vecmul pode ser inclulda em outros programas. Se o arquivo-fonte vecprod.s for colocado na 
linha de comando atras de outro arquivo-fonte do assembler, a sub-rotina estara disponlvel para multiplicagao de 
dois vetores de comprimento fixo. E aconselhavel remover antes as definigoes de constantes _EXIT e _PRINTF, 
para evitar que elas sejam definidas duas vezes. Se o arquivo de cabegalho syscalnr.h estiver incluldo em algum 
lugar, nao ha necessidade de definir as constantes de chamada de sistema em nenhum outro lugar. 

C.8.4 Depuracao de um programa de impressao de vetores 

Nos exemplos anteriores, os programas examinados eram simples, porem corretos. Agora, vamos mostrar 
como o rastreador pode ajudar a depurar programas incorretos. O proximo programa deve imprimir o vetor de 
inteiros, que e fornecido apos o rotulo vecl. Contudo, a versao inicial contem tres erros. O assembler e o rastreador 
serao usados para corrigir esses erros, porem, antes, vamos discutir o codigo. 

Como cada programa precisa de chamadas de sistema e, por isso, deve definir constantes pelas quais iden- 
tificar os numeros das chamadas, colocamos as definigoes de constantes para esses numeros em um arquivo de 
cabegalho separado ../syscalnr.h, que e incluldo na linha 1 do codigo. Esse arquivo tambem define as constantes 
para os descritores de arquivo 

STDIN = 0 

STDOUT = 1 

STDERR = 2 

que sao abertos no inlcio do processo, e rotulos de cabegalho para o texto e os segmentos de dados. E sensato 
inclul-lo no tltulo de todos os arquivos-fonte do assembler, porque essas definigoes sao muito usadas, Se uma 
fonte for distribulda em mais de um arquivo, o assembler inclui somente a primeira copia desse arquivo de cabe¬ 
galho, para evitar definir as constantes mais de uma vez. 

O programa arrayprt e mostrado na Figura C.16. Os comentarios foram omitidos aqui porque, a esta altura, 
as instrugoes ja devem ser bem conhecidas. Portanto, pode-se usar um forma to de duas colunas. A linha 4 coloca 
o enderego da pilha vazia no registrador de ponteiro de base para permitir que a limpeza da pilha possa ser feita na 
linha 10 copiando o ponteiro de base para o ponteiro de pilha, como descrevemos no exemplo anterior. Tambem 
vimos o calculo e a passagem dos argumentos da pilha antes da chamada nas linhas 5 a 9 no exemplo anterior. 
As linhas 22 a 25 carregam os registradores na sub-rotina. 
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Figura Cl6 0 programa arrayprt antes da depuracao. 


#include “../syscalnr.h” 

! 1 

.SECT .TEXT 

! 20 



vecprint: 

! 21 

.SECT .TEXT 

! 2 

PUSH BP 

! 22 

vecpstrt: 

! 3 

MOV BP,SP 

! 23 

MOV BP,SP 

! 4 

MOV CX,4(BP) 

! 24 

PUSH vecl 

! 5 

MOV BX,6(BP) 

! 25 

MOV CX,frmatstr-vec1 

! 6 

MOV Sl,0 

! 26 

SHR CX 

! 7 

PUSH frmatkop 

! 27 

PUSH CX 

! 8 

PUSH frmatstr 

! 28 

CALL vecprint 

! 9 

PUSH _PRINTF 

! 29 

MOV SP,BP 

! 10 

SYS 

! 30 

PUSH 0 

! 11 

MOV -4(BP),frmatint 

! 31 

PUSH _EXIT 

! 12 

1: MOV DI,(BX)(SI) 

! 32 

SYS 

! 13 

MOV -2(BP),DI 

! 33 



SYS 

! 34 

.SECT .DATA 

! 14 

INC SI 

! 35 

vecl: .WORD 3,4,7,11,3 

! 15 

LOOP 1b 

! 36 

frmatstr: .ASCIZ “%s” 

! 16 

push yr 

! 37 



PUSH _PUTCHAR 

! 38 

frmatkop: 

! 17 

SYS 

! 39 

.ASCIZ “0 vetor contem” 

! 18 

MOV SP,BP 

! 40 

frmatint: .ASCIZ “%d” 

! 19 

RET 

! 41 


As linhas 27 a 30 mostram como a cadeia pode ser impressa e 31 a 34 exibem a chamada de sistema printf 
para um valor inteiro. Observe que o enderego da cadeia e passado para a pilha na linha 27, enquanto na linha 
33 o valor do inteiro e passado para a pilha. Em ambos os casos, o enderego da cadeia de formato e o primeiro 
argumento de PRINTF. As linhas 37 a 39 mostram como um unico caractere pode ser impresso usando a chamada 
de sistema putchar. 

Agora, vamos tentar montar e executar o programa. Quando o comando 

as88 arrayprt.s 

e digitado, obtemos um erro de operando na linha 28 do arquivo arrayprt. $. Esse arquivo e gerado pelo assem¬ 
bler combinando os arquivos incluldos com o arquivo-fonte para obter um arquivo composto que e a entrada do 
assembler propriamente dita. Para ver onde de fa to esta a linha 28, temos de examinar a linha 28 de arrayprt. $. 
Nao podemos examinar arrayprt.s para obter o numero da linha porque os dois arquivos nao combinam, por 
causa da inclusao do cabegalho linha por linha em arrayprt. $. A linha 28 em arrayprt. $ corresponde a linha 7 em 
arrayprt.s porque o arquivo de cabegalho incluldo, syscalnr.h, contem 21 linhas. 

Um modo facil de achar a linha 28 de arrayprt.$ em sistemas UNIX e digitar o comando 

head -28 arrayprt.$ 

que apresenta as primeiras 28 linhas do arquivo combinado. A linha no final da listagem e a que esta errada. Desse 
modo (ou usando um editor e indo ate a linha 28), vemos que o erro esta na linha 7, que contem a instrugao SHR. 
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A comparagao desse codigo com a tabela de instrugoes na Figura C.4 mostra o problema: a contagem do deslo- 
camento foi omitida. A linha 7 corrigida deveria ser 

SHR CX,1 

E muito importante observar que o erro deve ser corrigido no arquivo-fonte original, arrayprt.s, e nao na fonte 
combinada arrayprt.$, porque essa ultima e automaticamente recriada toda vez que o assembler e chamado. 

A proxima tentativa de montar o arquivo de codigo-fonte deve ser bem-sucedida. Entao, o rastreador pode 
ser iniciado pelo comando 

t88 arrayprt 

Durante o processo de rastreamento, podemos ver que a salda nao e consistente com o vetor no segmento de 
dados. O vetor contem: 3, 4, 7, 11, 3, mas os valores apresentados comegam com: 3, 1.024, ... . E claro que alguma 
coisa esta errada. 

Para achar o erro, o rastreador pode ser executado mais uma vez, passo a passo, examinando o estado da 
maquina pouco antes da impressao do valor incorreto. O valor a ser impresso esta armazenado na memoria nas 
linhas 32 e 33. Visto que o valor errado esta sendo impresso, esse e um bom lugar para ver o que esta errado. Na 
segunda vez que percorremos o lago, vemos que SI e um numero Impar, quando esta claro que devia ser um nume- 
ro par, porque ele esta indexando por meio de palavras, e nao bytes. O problema esta na linha 35. Ela incrementa 
SI em 1; deveria incrementa-lo em 2. Para consertar o bug, essa linha deve ser alterada para 

ADD SI,2 

Apos fazer essa corregao, a lista de numeros impressa estara correta. 

Todavia, ha mais um erro a nossa espera. Quando vecprint conclui e retorna, o rastreador se queixa do pontei- 
ro de pilha. Por enquanto, o obvio e verificar se o valor passado para a pilha quando vecprint e chamado e o valor 
que esta no topo quando o RET na linha 41 e executado. Nao e. A solugao e substituir a linha 40 por duas linhas: 

ADD SP,10 

POP BP 

A primeira instrugao remove as 5 palavras passadas para a pilha durante vecprint, o que expoe o valor de 
BP salvo na linha 22. Retirando esse valor para BP, restauramos BP ao valor que tinha antes da chamada e 
expomos o enderego de retorno correto. Agora, o programa conclui corretamente. A depuragao de codigo de 
montagem e, por certo, mais arte do que ciencia, mas e muito mais facil faze-la com o rastreador do que com 
as maos vazias. 


C.8.5 Manipulacao de cadeia e instrucoes de cadeia 

A principal finalidade desta segao e mostrar como manipular instrugoes de cadeia repetlveis. Na Figura C.17, 
ha dois programas simples de manipulagao de cadeia, strngcpy.s e reverspr.s, ambos presentes no diretorio exam¬ 
ples. O da Figura C. 17(a) e uma sub-rotina para copiar uma cadeia de caracteres. Ele chama uma sub-rotina, 
stringpr, que tambem pode ser encontrada em um arquivo separado stringpr.s. Sua listagem nao aparece neste 
apendice. Para montar programas que contem sub-rotinas em arquivos-fonte separados, basta relacionar todos 
os arquivos-fonte no comando as88 , comegando com aquele para o programa principal, que determina os nomes 
do arquivo executavel e do auxiliar. Por exemplo, para o programa da Figura C. 17(a), use 

as88 strngcpy.s stringpr.s 

O programa da Figura C. 17(b) produz salda de cadeias em ordem inversa. Vamos examina-las uma por vez. 
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Figura Cl7 (a) Copiando uma cadeia (strngcpy.s ). (b) Imprimindo uma cadeia na ordem inversa [reverses). 


.SECT .TEXT 


#include “../syscalnr.h” 

! 1 

stcstart: 

! 1 



PUSH mesgl 

! 2 

start: MOV Dl.str 

! 2 

PUSH mesg2 

! 3 

PUSH AX 

! 3 

CALL strngcpy 

! 4 

MOV BP,SP 

! 4 

ADD SP,4 

! 5 

PUSH _PUTCHAR 

! 5 

PUSH 0 

! 6 

MOVB AL,’\n’ 

! 6 

PUSH 1 

! 7 

MOV CX-1 

! 7 

SYS 

! 8 

REPNZ SCASB 

! 8 

strngcpy: 

! 9 

NEG CX 

! 9 

PUSH CX 

! 10 

STD 

! 10 

PUSH SI 

! 11 

DEC CX 

! 11 

PUSH Dl 

! 12 

SUB Dl,2 

! 12 

PUSH BP 

! 13 

MOV SI,Dl 

! 13 

MOV BP,SP 

I 14 

1: LODSB 

! 14 

MOV AX,0 

! 15 

MOV (BP),AX 

! 15 

MOV DI.IO(BP) 

! 16 

SYS 

! 16 

MOV CX-1 

! 17 

LOOP 1b 

! 17 

REPNZ SCASB 

! 18 

MOVB (BP),’\n’ 

! 18 

NEG CX 

I 19 

SYS 

! 19 

DEC CX 

! 20 

PUSH 0 

! 20 

MOV SI,10(BP) 

! 21 

PUSH _EXIT 

! 21 

MOV DI,12(BP) 

! 22 

SYS 

! 22 

PUSH Dl 

! 23 

.SECT .DATA 

! 23 

REP MOVSB 

I 24 

str: .ASCIZ “reverse\n” 

! 24 

CALL stringpr 

! 25 



MOV SP,BP 

! 26 



POP BP 

! 27 



POP Dl 

! 28 



POP SI 

! 29 



POP CX 

! 30 



RET 

! 31 



.SECT .DATA 

! 32 



mesgl: .ASCIZ “De uma olhada\n” 

I 33 



mesg2: .ASCIZ “qrst\n” 

.SECT .BSS 

! 34 



(a) 


(b) 



Para demonstrar que os numeros de linha sao, realmente, apenas comentarios, na Figura C. 17(a) numeramos 
as linhas comegando com o primeiro rotulo e omitindo o que vem antes delas. O programa principal, nas linhas 
2 a 8, primeiro chama strngcpy com dois argumentos, a cadeia de origem, mesg2, e a cadeia de destino, mesgl, a 
fim de copiar da origem para o destino. 

Em seguida, vamos examinar strngcpy, comegando na linha 9. Ela espera que os enderegos do buffer de des¬ 
tino e da cadeia de origem tenham sido passados para a pilha um pouco antes de a sub-rotina ser chamada. Nas 
linhas 10 a 13, os registradores usados sao salvos passando-os para a pilha, de modo que possam ser restaurados 
adiante nas linhas 27 a 30. Na linha 14, copiamos SP para BP do modo normal. Agora, BP pode ser usado para 
carregar os argumentos. Mais uma vez, na linha 26, limpamos a pilha copiando BP para SP. 

O coragao da sub-rotina e a instrugao REP MOVSB, na linha 24. A instrugao MOVSB move o byte apontado por SI 
para o enderego de memoria apontado por Dl. Entao, ambos, SI e Dl, sao incrementados em 1. O REP cria um lago no 
qual essa instrugao e repetida, decrementando CX em 1 para cada byte movido. O lago e encerrado quando CX chega a 0. 
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Entretanto, antes de podermos executar o lago REP MOVSB, temos de ajustar os registradores, o que e feito 
nas linhas 15 a 22. O Indice de origem, SI, e copiado do argumento na pilha na linha 21; o de destino, Dl, e ajustado 
na linha 22. Obter o valor de CX e mais complicado. Note que o final da cadeia e indicado por um byte zero. A 
instrugao MOVSB nao afeta o flag de zero, mas a instrugao SCASB (examine cadeia de bytes) afeta. Ela compara o 
valor apontado por Dl com o valor em AL e incrementa Dl durante o processo. Alem do mais, ela e repetlvel, como 
MOVSB. Portanto, na linha 15, AX e, por conseguinte, AL, e limpo, na linha 16 o ponteiro para Dl e buscado na 
pilha, e CX e inicializado como -1 na linha 17. Na linha 18, temos REPNZ SCASB, que faz a comparagao no con- 
texto do lago e ajusta o flag de zero na igualdade. Em cada etapa do lago, CX e decrementado e o lago para quando 
o flag de zero estiver ajustado, porque REPNZ verifica ambos, o flag de zero e CX. O numero de etapas para o 
lago MOVSB agora e calculado como a diferenga entre o valor corrente de CX e o -1 anterior nas linhas 19 e 20. 

O fa to de serem necessarias duas instrugoes repetlveis atrapalha, mas esse e o prego de op tar por um projeto 
no qual mover instrugoes nunca afeta codigos de condigao. Durante os lagos, os registradores de indice tern de 
ser incrementados e, com essa finalidade, e necessario que o flag de diregao seja apagado. 

As linhas 23 e 25 imprimem a cadeia copiada por meio de uma sub-rotina, stringpr , que esta no diretorio 
examples. Ela e direta e nao sera discutida aqui. 

No programa de impressao em ordem inversa, mostrado na Figura C. 17(b), a primeira linha inclui os nume- 
ros normais de chamadas de sistema. Na linha 3, um valor fictlcio e passado para a pilha e, na linha 4, o ponteiro 
de base, BP, e obrigado a apontar para o topo de pilha corrente. O programa imprimira caracteres ASCII um 
por um, assim, o valor numerico _PUTCHAR e passado para a pilha. Note que BP aponta para o caractere a ser 
impresso quando e feita uma chamada SYS. 

As linhas 2, 6 e 7 preparam os registradores Dl, AL e CX para a instrugao repetlvel SCASB. O registrador de 
contagem e o indice de destino sao carregados de modo semelhante ao da rotina de copia de cadeia, mas o valor 
de AL e o caractere de nova linha, em vez do valor 0. Desse modo, a instrugao SCASB ira comparar os valores dos 
caracteres da cadeia str com \n em vez de com 0, e ajustara o flag de zero sempre que ele for encontrado. 

REP SCASB incrementa o registrador Dl, portanto, depois de um acerto, o indice de destino aponta para o caracte¬ 
re zero que vem apos a nova linha. Na linha 12, Dl e decrementado em dois para apontar para a ultima letra da palavra. 

Se a cadeia for percorrida na ordem inversa e impressa caractere por caractere, cumprimos nosso objetivo, 
portanto, na linha 10 oflag de diregao e ajustado para inverter o ajuste dos registradores de indices nas instrugoes 
de cadeia. Agora, LODSB na linha 14 copia o caractere em AL e, na linha 15, esse caractere e colocado logo apos 
_PUTCHAR na pilha, portanto, a instrugao SYS o imprime. 

As instrugoes nas linhas 18 e 19 imprimem uma nova linha adicional e o programa fecha com uma chamada 
_EXIT da maneira normal. 

A versao corrente do programa contem um bug. Ele pode ser achado se o programa for rastreado passo a passo. 

O comando /str colocara a cadeia str no campo de dados do rastreador. Uma vez que o valor numerico no 
enderego de dados tambem e dado, podemos descobrir como os registradores de indices funcionam por meio dos 
dados referentes a posigao da cadeia. 

Todavia, o bug e encontrado so apos acionar a tecla Return (ou Enter) muitas vezes. Usando os comandos 
do rastreador, podemos chegar ao problema com maior rapidez. Inicie o rastreador e de o comando 13 que nos 
levara ate o meio do lago. Se agora dermos o comando b, estabelecemos um ponto de interrupgao nessa linha 
15. Se dermos duas novas linhas, entao vemos que a ultima letra e esta impressa no campo de salda. O comando 
r mantera o rastreador executando ate ser encontrado um ponto de interrupgao ou o final do processo. Assim, 
podemos percorrer as letras dando o comando r repetidas vezes, ate chegarmos perto do problema. Desse ponto 
em diante, podemos executar o rastreador um passo por vez ate vermos o que acontece nas instrugoes crlticas. 

Tambem podemos colocar o ponto de interrupgao em uma linha especlfica, mas, entao, devemos ter em 
mente que o arquivo ../syscalnr e incluldo, o que provoca um deslocamento de 20 nos numeros de linha. Por con¬ 
seguinte, o ponto de interrupgao na linha 16 pode ser estabelecido pelo comando 36b. Essa solugao nao e elegan¬ 
te, portanto, e muito melhor usar o rotulo global start na linha 2 antes da instrugao e dar o comando / start+14b , 
que coloca o ponto de interrupgao no mesmo lugar sem ter de monitorar o tamanho do arquivo incluldo. 
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C.8.6 Tabelas de despacho 

Em varias linguagens de programagao existem declaragoes case ou switch para selecionar um salto entre 
diversas alternativas de acordo com algum valor numerico de uma variavel. As vezes, esses desvios multivias 
tambem sao necessarios em programas de linguagem de montagem. Imagine, por exemplo, um conjunto de 
sub-rotinas de chamadas de sistema combinadas em uma unica rotina de excegao SYS. O programa jumptbl.s, 
apresentado na Figura C.18, mostra como essa comutagao multivias pode ser programada em assembler 8088. 

O programa comega imprimindo a cadeia cujo rotulo e sfrt, convidando o usuario a compor um dlgito octal 
(linhas 4 ate 7). Entao, um caractere e lido da entrada-padrao (linhas 8 e 9). Se o valor para AX for menor que 5, 
o programa o interpreta como um marcador de final de arquivo e salta para o rotulo 8 na linha 22 para sair com 
um codigo de status 0. 

Se o final de arquivo nao foi encontrado, entao o caractere de entrada, em AL, e inspecionado. Qualquer 
caractere menor que o dlgito 0 e considerado espago em branco e e ignorado pelo salto na linha 13, que recupera 
outro caractere. Qualquer caractere acima do dlgito 9 e considerado uma entrada incorreta. Na linha 16, ele e 
mapeado para o caractere ASCII dois-pontos, que e o sucessor do dlgito 9 na sequencia ASCII. 

Assim, na linha 17, temos um valor em AX entre o dlgito 0 e dois-pontos. Esse valor e copiado para BX. Na 
linha 18, a instrugao AND mascara tudo, exceto os quatro bits de ordem baixa, o que deixa um numero entre 0 e 
10 (pelo falo de que o 0 em ASCII e 0x30). Uma vez que vamos indexar para uma tabela de palavras, em vez de 
bytes, o valor em BX e multiplicado por dois usando o deslocamento para a esquerda na linha 19. 

Na linha 20, temos uma instrugao de chamada. O enderego efetivo e encontrado somando-se o valor 
de BX ao valor numerico do rotulo tbl, e o conteudo desse enderego composto e carregado no contador de 
programa, PC. 

Esse programa escolhe uma das dez sub-rotinas de acordo com um caractere que e buscado na entrada- 
-padrao. Cada uma dessas sub-rotinas passa o enderego de alguma mensagem para a pilha e entao salta para uma 
chamada de sistema de sub-rotina _PRINTF que e compartilhada por todas elas. 

Para entender o que esta acontecendo, precisamos estar cientes de que as instrugoes JMP e CALL carregam 
algum enderego do segmento de texto no PC. Tal enderego e apenas um numero binario, e durante o processo 
de montagem todos os enderegos sao substituldos por seus valores binarios. Esses valores binarios podem ser 
usados para inicializar um vetor no segmento de dados, e isso e feito na linha 50. Assim, o vetor que comega em 
tbl contem os enderegos de inlcio de routO , routl , rout2 e assim por diante, dois bytes por enderego. A necessidade 
de enderegos de 2 bytes explica por que precisamos do deslocamento de 1 bit na linha 19. Uma tabela desse tipo 
costuma ser denominada tabela de despacho. 

O modo como essas rotinas funcionam pode ser vis to na rotina erout nas linhas 43 ate 48. Essa rotina trata o 
caso de um dlgito fora da faixa. Primeiro, o enderego da mensagem (em AX) e passado para a pilha na linha 43. 
Entao, o numero da chamada de sistema _PRINTF e passado para a pilha. Depois disso, a chamada de sistema e 
feita, a pilha e limpa e a rotina retorna. Cada uma das outras nove rotinas, routO ate rout8, carrega os enderegos de 
suas mensagens privadas em AX, e entao salta para a segunda linha de erout para produzir a salda da mensagem 
e encerrar a sub-rotina. 

Para voce se acostumar com tabelas de despacho, o programa deve ser rastreado com varios caracteres de 
entrada diferentes. Como exerclcio, o programa pode ser alterado de modo que todos os caracteres gerem uma 
agao logica. Por exemplo, os caracteres que nao sejam dlgitos octais devem dar uma mensagem de erro. 
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Figura C.18 Um programa que demonstra um desvio multivias usando uma tabela de despacho. 


#include “../syscalnr.h” 

! 1 

routO: MOV AX,mes0 

! 25 

.SECT .TEXT 

! 2 

JMP 9f 

! 26 

jumpstrt: 

! 3 

routl: MOV AX,mes1 

! 27 

PUSH strt 

! 4 

JMP 9f 

! 28 

MOV BP,SP 

! 5 

rout2: MOV AX,mes2 

! 29 

PUSH _PRINTF 

! 6 

JMP 9f 

! 30 

SYS 

! 7 

rout3: MOV AX,mes3 

! 31 

PUSH _GETCHAR 

! 8 

JMP 9f 

! 32 

1: SYS 

! 9 

rout4: MOV AX,mes4 

! 33 

CMP AX,5 

! 10 

JMP 9f 

! 34 

JL8f 

! 11 

rout5: MOV AX,mes5 

! 35 

CMPB AL,’0’ 

! 12 

JMP 9f 

! 36 

JL 1b 

! 13 

rout6: MOV AX,mes6 

! 37 

CMPB AL,’9’ 

! 14 

JMP 9f 

! 38 

JLE 2f 

! 15 

rout7: MOV AX,mes7 

! 39 

MOVB AL,’9’+1 

! 16 

JMP 9f 

! 40 

2: MOV BX,AX 

! 17 

rout8: MOV AX,mes8 

! 41 

AND BX,0Xf 

! 18 

JMP 9f 

! 42 

SAL BX,1 

! 19 

erout: MOV AX,ernes 

! 43 

CALL tbl(BX) 

! 20 

9: PUSH AX 

! 44 

JMP 1b 

! 21 

PUSH _PRINTF 

! 45 

8: PUSH 0 

! 22 

SYS 

! 46 

PUSH _EXIT 

! 23 

ADD SP,4 

! 47 

SYS 

! 24 

RET 

! 48 


.SECT .DATA 

tbl: .WORD routO.routl ,rout2,rout3,rout4,rout5,rout6,rout7,rout8,rout8,erout 


mesO: 

.ASCIZ 

mesl: 

.ASCIZ 

mes2: 

.ASCIZ 

mes3: 

.ASCIZ 

mes4: 

.ASCIZ 

mes5: 

.ASCIZ 

mes6: 

.ASCIZ 

mes7: 

.ASCIZ 

mes8: 

.ASCIZ 

ernes: 

.ASCIZ 


strt: .ASCIZ “Digite um digito octal com um Return. Pare no final do arquivoAn” 


49 

50 

51 

52 

53 

54 

55 

56 

57 

58 

59 

60 
61 


C.8.7 Acesso a arquivo com buffer e aleatorio 

O programa InFilBuf.s , mostrado na Figura C.19, demonstra E/S aleatoria em arquivos. Presume-se que um 
arquivo consista em certo numero de linhas, e linhas diferentes podem ter comprimentos diferentes. Primeiro, o 
programa le o arquivo e monta uma tabela na qual a entrada n e a posigao do arquivo na qual a linha n comega. 
Logo apos, a linha pode ser requisitada, sua posigao consultada na tabela e a linha pode ser lida por meio de cha- 
madas de sistema Iseek e read. O nome do arquivo e dado como a primeira linha na entrada-padrao. Esse programa 
content diversas porgoes de codigo bastante independentes que podem ser modificadas para outras finalidades. 
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Figura C.19 


Um programa com leitura de buffer e acesso de arquivo aleatorio. 


#include “../syscalnr.h” 

! 1 

PUSH _EXIT 

! 43 

PUSH but 

! 85 

bufsiz = 512 

! 2 

PUSH _EXIT 

! 44 

PUSH (tildes) 

! 86 

.SECT .TEXT 

! 3 

SYS 

! 45 

PUSH _READ 

! 87 

infbufst: 

! 4 

3: CALL getnum 

! 46 

SYS 

! 88 

MOV BP,SP 

! 5 

CMP AX,0 

! 47 

ADD SP,8 

! 89 

MOV Dl,linein 

! 6 

JLE 8f 

! 48 

MOV CX,AX 

! 90 

PUSH _GETCHAR 

! 7 

MOV BX,(curlin) 

! 49 

ADD BX,CX 

! 91 

1: SYS 

! 8 

CMP BX,0 

! 50 

MOV Dl.buf 

! 92 

CMPB AL,’\n’ 

! 9 

JLE 7f 

! 51 

RET 

! 93 

JL 9f 

! 10 

CMP BX,(count) 

! 52 



JE If 

! 11 

JG 7f 

! 53 

getnum: 

! 94 

STOSB 

! 12 

SHL BX,1 

! 54 

MOV Dl,linein 

! 95 

JMP 1b 

! 13 

MOV AX,linh-2(BX) 

! 55 

PUSH _GETCHAR 

! 96 

1: PUSH 0 

! 14 

MOV CXJinh(BX) 

! 56 

1: SYS 

! 97 

PUSH linein 

! 15 

PUSH 0 

! 57 

CMPB AL,V 

! 98 

PUSH _OPEN 

! 16 

PUSH 0 

! 58 

JL 9b 

! 99 

SYS 

! 17 

PUSH AX 

! 59 

JE If 

MOO 

CMP AX,0 

! 18 

PUSH (tildes) 

! 60 

STOSB 

1101 

JL 9f 

! 19 

PUSH _LSEEK 

! 61 

JMP 1b 

1102 

MOV (fildes).AX 

! 20 

SYS 

! 62 

1: MOVB (Dl),’\0’ 

1103 

MOV SIJinh+2 

! 21 

SUB CX,AX 

! 63 

PUSH curlin 

1104 

MOV BX,0 

! 22 

PUSH CX 

! 64 

PUSH numfmt 

1105 

1: CALL fillbuf 

! 23 

PUSH but 

! 65 

PUSH linein 

1106 

CMP CX,0 

! 24 

PUSH (tildes) 

! 66 

PUSH _SSCANF 

1107 

JLE 3f 

! 25 

PUSH _READ 

! 67 

SYS 

1108 

2: MOVB AL,’\n’ 

! 26 

SYS 

! 68 

ADD SP,10 

1109 

REPNE SCASB 

! 27 

ADD SP,4 

! 69 

RET 

1110 

JNE 1b 

! 28 

PUSH 1 

! 70 



INC (count) 

! 29 

PUSH _WRITE 

! 71 

.SECT .DATA 

Mil 

MOV AX,BX 

! 30 

SYS 

! 72 

errmess: 

1112 

SUB AX,CX 

! 31 

ADD SP,14 

! 73 

.ASCIZ “Falha ao abrir %s\n” 

1113 

XCHG SI,Dl 

! 32 

JMP 3b 

! 74 

numfmt: .ASCIZ “%d” 

1114 

STOS 

! 33 

8: PUSH scanerr 

! 75 

scanerr: 

1115 

XCHG SI,Dl 

! 34 

PUSH _PRINTF 

! 76 

.ASCIZ “Digite um numeroAn” 

1116 

CMP CX,0 

! 35 

SYS 

! 77 

.ALIGN 2 

1117 

JNE 2b 

! 36 

ADD SP,4 

! 78 

.SECT .BSS 

1118 

JMP 1b 

! 37 

JMP 3b 

! 79 

linein: .SPACE 80 

1119 

9: MOV SP,BP 

! 38 

7: PUSH 0 

! 80 

tildes: .SPACE 2 

1120 

PUSH linein 

! 39 

PUSH _EXIT 

! 81 

linh: .SPACE 8192 

1121 

PUSH errmess 

! 40 

SYS 

! 82 

curlin: .SPACE 4 

1122 

PUSH _PRINTF 

! 41 

fillbuf: 

! 83 

but: .SPACE bufsiz+2 

1123 

SYS 

! 42 

PUSH bufsiz 

! 84 

count: .SPACE 2 

1124 


As cinco primeiras linhas apenas definem os numeros de chamada de sistema e o tamanho do buffer e ajustam 
o ponteiro de base no topo da pilha, como sempre. As linhas 6 ate 13 leem o nome do arquivo a partir da entrada- 
-padrao, e o armazenam como uma cadeia no rotulo linein. Se o nome do arquivo nao for adequadamente fechado 
com uma nova linha, entao e gerada uma mensagem de erro e o processo sai com um status diferente de zero. Isso 
e feito nas linhas 38 ate 45. Note que o enderego do nome de arquivo e passado na linha 39, e o enderego de uma 
mensagem de erro e passado na linha 40. Se examinarmos a mensagem de erro em si (na linha 113), entao lemos 
uma requisigao de cadeia %s no formato _PRINTF. O conteudo da cadeia linein e inserido aqui. 
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Se o nome de arquivo puder ser copiado sem problemas, o arquivo e aberto nas linhas 14 a 20. Se a chama- 
da open falhar, o valor de retorno e negativo e e feito um salto para o rotulo 9 na linha 28, para imprimir uma 
mensagem de erro. Se a chamada de sistema for bem-sucedida, o valor de retorno e um descritor de arquivo, que 
e armazenado na variavel fildes. Esse descritor de arquivo e necessario nas chamadas read e Iseek subsequentes. 

Em seguida, lemos o arquivo em blocos de 512 bytes, cada um armazenado no buffer buf. O buffer alocado 
e dois bytes maior que os 512 bytes necessarios, apenas para demonstrar como uma constante simbolica e um 
inteiro podem ser misturados em uma expressao (na linha 123). Desse mesmo modo, na linha 21 SI e carregado 
com o enderego do segundo elemento do vetor link, o que deixa uma palavra de maquina contendo 0 na parte de 
baixo desse vetor. O registrador BX contera o enderego de arquivo do primeiro caractere nao lido do arquivo e, 
por conseguinte, ele e inicializado como 0 antes da primeira vez que o buffer e preenchido na linha 22. 

O preenchimento do buffer e tratado pela rotina fillbuf nas linhas 83 ate 93. Apos passar os argumentos para 
read, a chamada de sistema e requisitada, o que coloca o numero de caracteres realmente lidos em AX. Esse nume- 
ro e copiado para CX e o numero de caracteres que ainda estao no buffer sera mantido em CX dali em diante. A 
posigao de arquivo do primeiro caractere nao lido no arquivo e mantida em BX, portanto, CX tern de ser somado 
a BX na linha 91. Na linha 92, a parte de baixo do buffer e colocada em Dl de modo a ficar pronta para examinar 
o buffer em busca do proximo caractere de nova linha. 

Apos retornar de fillbuf, a linha 24 verifica se algo foi realmente lido. Se nao foi, saltamos fora do lago de 
leitura em buffer para a segunda parte do programa, na linha 25. 

Agora, estamos prontos para examinar o buffer. O slmbolo \n (nova linha) e carregado em AL na linha 26, e 
na linha 27 esse valor e examinado por REP SCASB e comparado com os slmbolos no buffer. Ha dois modos de 
sair do lago: quando CX chega a zero ou quando um slmbolo examinado e um caractere de nova linha. Se o flag 
de zero estiver marcado, o ultimo slmbolo examinado foi um \n e a posigao de arquivo do slmbolo corrente (um 
apos a nova linha) deve ser armazenada no vetor link. Entao, a contagem e incrementada e a posigao de arquivo 
e calculada a partir de BX e o numero de caracteres ainda disponlveis esta em CX (linhas 29 ate 31). As linhas 32 
ate 34 executam o armazenamento propriamente dito, porem, vis to que STOS pressupoe que o destino esta em 
Dl e nao em SI, esses registradores sao permutados antes e apos STOS. As linhas 35 ate 37 verificam se ha mais 
dados disponlveis no buffer, e saltam de acordo com o valor de CX. 

Quando o final do arquivo e alcangado, temos uma lista completa de posigoes dos inlcios das linhas no 
arquivo. Como iniciamos o vetor link com uma palavra 0, sabemos que a primeira linha comegou no enderego 0, 
e que a proxima linha comega na posigao dada por link + 2 etc. O tamanho da linha n pode ser encontrado pelo 
enderego de inlcio da linha n + 1 menos o enderego de inlcio da linha n. 

O objetivo do res to do programa e ler o numero de uma linha, ler aquela linha para o buffer e produzir sua 
salda por meio de uma chamada write. Todas as informagoes necessarias podem ser encontradas no vetor link 
cuja enesima entrada contem a posigao do inlcio da linha n no arquivo. Se o numero de linha requisitado for 0 
ou estiver fora de alcance, o programa sai, saltando para o rotulo 7. 

Essa parte do programa comega com uma chamada para a sub-rotina getnum na linha 46. Essa rotina le uma 
linha da entrada-padrao e a armazena no buffer linein (nas linhas 95 ate 103). Em seguida, nos preparamos para 
a chamada SSCANF. Considerando a ordem inversa dos argumentos, em primeiro lugar passamos o enderego de 
curlin, que pode conter um valor inteiro, depois o enderego da cadeia de forma to de inteiros numfmt e, por fim, 
o enderego do buffer linein que contem o numero em notagao decimal. A sub-rotina de sistema SSCANF coloca 
o valor binario em curlin, se posslvel. Se falhar, ela retorna um 0 em AX. Esse valor de retorno e testado na linha 
48; se houver falha, o programa gera uma mensagem de erro por meio do rotulo 8. 

Se a sub-rotina getnum retornar um inteiro valido em curlin, entao primeiro o copiamos em BX. Em seguida, tes- 
tamos o valor em relagao a faixa nas linhas 49 ate 53, o que gera uma EXIT se o numero da linha estiver fora da faixa. 

Depois, devemos achar o final da linha selecionada no arquivo e o numero de bytes a ler, de modo que 
multiplicamos BX por 2 com um deslocamento para a esquerda SHL. A posigao de arquivo da linha pretendida e 
copiada para AX na linha 55. A posigao de arquivo da linha seguinte e passada para CX e sera usada para calcular 
o numero de bytes na linha atual. 



Apendice C • Programacao em linguagem de montagem 


583 


Para fazer uma leitura aleatoria de um arquivo e preciso uma chamada Iseek para ajustar o deslocamento do 
arquivo para o byte a ser lido. A instrugao Iseek e executada em relagao ao inlcio do arquivo, portanto, primeiro um 
argumento 0 e passado para indicar isso na linha 57. O proximo argumento e o deslocamento do arquivo. Por defi- 
nigao, esse argumento e um inteiro longo (isto e, 32 bits), portanto, primeiro passamos uma palavra 0 e em seguida 
o valor de AX nas linhas 58 e 59 para formar um inteiro de 32 bits. Entao, o descritor de arquivo e o codigo para 
LSEEK sao passados e a chamada e feita na linha 62. O valor de retorno de LSEEK e a posigao atual no arquivo e 
pode ser encontrada na combinagao de registradores DX : AX. Se o numero couber dentro de uma palavra de maqui- 
na (o que acontecera para arquivos menores do que 65.536 bytes), entao AX contem o enderego, portanto, subtrair 
esse registrador de CX (linha 63) resulta no numero de bytes a ser lido de modo a trazer a linha para dentro do buffer. 

O restante do programa e facil. A linha e lida do arquivo nas linhas 64 ate 68 e entao e escrita na salda- 
-padrao por meio do descritor de arquivo 1 nas linhas 70 ate 72. Note que a contagem e o valor do buffer ainda 
estao na pilha apos a limpeza parcial da pilha na linha 69. Por fim, na linha 73, reajustamos o ponteiro de pilha 
completamente e estamos prontos para a proxima etapa, portanto, saltamos de volta para o rotulo 3 e reiniciamos 
com outra chamada a getnum. 
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Problemas 

1. Apos a instrugao MOV AX, 702 ser executada, quais 
sao os valores decimais para os conteudos de AH e AL? 

2. O registrador CS tern o valor 4. Qual e a faixa de 
enderegos absolutos de memoria para o segmento 
de codigo? 

3. Qual e o mais alto enderego de memoria que o 8088 
pode acessar? 

4. Suponha que CS = 40, DS = 8.000 e IP = 20. 

a. Qual e o enderego absoluto da proxima instrugao? 

b. Se MOV AX, (2) for executada, qual palavra de 
memoria e carregada em AX? 

5. Uma sub-rotina com tres argumentos de inteiros e 
chamada logo apos a sequencia de chamada descrita 
no texto, isto e, quern chama passa os argumentos 
para a pilha em ordem inversa, entao executa uma 
instrugao CALL. A rotina chamada, entao, salva o 
BP antigo e ajusta o novo BP para apontar para o 
antigo salvo. Dai, o ponteiro de pilha e decrementado 


para alocar espago para variaveis locais. Com essas 
convengoes, de a instrugao necessaria para mover o 
primeiro argumento para AX. 

6. Na Figura C.l, a expressao de-hw e usada como um 
operando. Esse valor e a diferenga entre dois rotulos. 
Existiriam circunstancias nas quais de+hw poderia 
ser usada como um operando valido? Discuta sua 
resposta. 

7. De o codigo de montagem para calcular a expressao 

x = a + b + 2 

8. Uma fungao C e chamada por 
foobar(x, y); 

De o codigo de montagem para fazer essa chamada. 

9. Escreva um programa em linguagem de montagem 
para aceitar expressoes de entrada consistindo em 
um inteiro, um operador e outro inteiro e produza 
o valor de saida da expressao. Permita os operadores 
+, -, x e /. 
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